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Eigentlich weiß man nur, wenn man wenig weiß; 
mit dem Wissen wächst der Zweifel. 
Johann Wolfgang von Goethe 


Vorwort 


Die Wahrheit triumphiert nie, 
ihre Gegner sterben nur aus. 
Max Planck 


Irren ist menschlich. Durch Versuch und Irrtum erkennen wir un- 
sere Welt. Einige Irrtümer allerdings schaffen trotz klarer Widerle- 
gungen den Sprung ins Lehrbuch. Einmal in Büchern oder Köpfen 
angelangt, können sie kaum noch korrigiert werden. 

Unser Buch beschreibt eine Auswahl dieser Irrtümer, ihre Entste- 
hung, ihre Resistenz gegen Widerlegungen und ihre Ausbreitungs- 
mechanismen. Die Forschung ist gegenwärtig eher darauf angelegt, 
Quantität zu produzieren. Allein in den biomedizinischen Fach- 
zeitschriften werden jährlich mehrere Millionen Artikel veröffent- 
licht, von denen die meisten wertlos sind. Qualität in Form von so- 
liden Ergebnissen ist nicht gefragt. Eine unüberschaubare Flut von 
Desinformation begräbt die tatsächlich neuen Erkenntnisse unter 
sich und behindert den wissenschaftlichen Fortschritt. Wir wollen 
dazu beitragen, dass dies nicht so bleibt. 


Zusammengerechnet blicken wir auf 60 Berufsjahre in der biome- 
dizinischen Forschung zurück. Zeit genug, um reichlich eigene 
Fehler zu begehen und auf eigene Trugschlüsse hereinzufallen. Die 
meisten der in diesem Buch dargestellten Fehler haben wir vom 
Prinzip her selbst irgendwann begangen. Da aber unsere For- 
schungsergebnisse nicht so bedeutend sind, sind unsere Irrtümer zu 
belanglos, um hier ausgebreitet zu werden. Bedeutendere Wissen- 
schaftler haben da ganz einfach Bedeutenderes geleistet. Deshalb 
berichten wir im Wesentlichen über die viel wichtigeren, weil ein- 
flussreicheren Trugschlüsse anderer Wissenschaftler. Außerdem ist 
es bekanntlich viel einfacher, vor der Tür anderer zu kehren, als 
sich an die eigene Nase zu fassen. 

Dieses Buch ist unvollständig, denn die Vielfalt der Irrtümer ist 
grenzenlos. Viele der hier aufgeschriebenen Gedanken haben an- 


dere bereits vor uns gedacht, doch sind sie nur selten beherzigt 
worden. Wir sind dennoch überzeugt, dass diese Einführung in die 
Zwickmühlen der Forschung brisant und unterhaltsam ist. Brisant 
vor allem deshalb, weil die Grenze zwischen Irrtum und Wissen- 
schaftsbetrug nicht immer eindeutig verläuft. 

Der Text hat Risiken und Nebenwirkungen. Wir weisen auch 
dann auf Probleme hin, wenn wir keine Lösung anbieten können. 
Trotz vordergründig vergnüglicher Darreichungsform birgt dieses 
Buch die Gefahr nachhaltiger Verunsicherung, steigert allerdings 
gleichzeitig die Kritikfähigkeit. 

Der Hund, der Eier legt entstand aus dem Skriptum unserer Vor- 
lesung «Vom Irrtum zum Lehrsatz», die wir am Fachbereich Me- 
dizin der Universität Hamburg gehalten haben und die 1996 mit 
dem «Fischer-Appelt-Preis für hervorragende Leistungen in der 
akademischen Lehre» ausgezeichnet wurde. 


Hamburg, im April 1997 


Wir danken unseren Lesern für die vielen wertvollen Hinweise. 
Auch weiterhin sind wir an Kritik und Anregungen sehr interes- 
siert (E-Mail: dubben@uke.uni-hamburg.de oder bebo@uke.uni- 
hamburg.de; Postadresse: Universitätsklinikum Hamburg-Eppen- 
dorf, Martinistraße 52, 20246 Hamburg). 

Dem Rowohlt Verlag danken wir für die Gelegenheit, unser 
Buch für diese Neuauflage zu ergänzen, zu aktualisieren und zu 
korrigieren. 


Hamburg, im Juli 2006 


Ohne Panik positiv 
Aussagekraft von Früherkennungs- 
untersuchungen 


Gesundheit bezeichnet den Zustand eines Menschen, 
der nicht häufig genug untersucht wurde. 
Dirk Maxeiner und Michael Miersch 


Trugschlüsse und Irrtümer sind ansteckend wie Windpocken, und 
wie ansteckende Krankheiten breiten sie sich aus. Wer eine Infek- 
tion überstanden hat, ist danach häufig immun gegen erneuten Be- 
fall, und wer einen Trugschluss erst einmal erkannt hat, fällt auf 
ihn nicht mehr so leicht herein. Mit diesem Buch möchten wir Ihre 
Widerstandskraft gegen Irrtümer und Trugschlüsse stärken. 

Sie sind soeben aus einem herrlichen Urlaub in einem fernen 
exotischen Land zurückgekehrt. Es ist touristisch noch fast uner- 
schlossen und Sie haben sich prächtig erholt. Während Ihres Auf- 
enthalts haben Sie erfahren, dass es dort eine seltene Erkrankung 
gibt, die Canine Ovorhoe, auch Bellsucht genannt. Die Anste- 
ckungsgefahr für Touristen ist zwar gering, dennoch entschließen 
Sie sich, bei Ihrem Arzt einen Test durchführen zu lassen, da die 
Heilungschancen bei einer Früherkennung deutlich besser sind als 
nach dem Ausbruch der Krankheit. Ein paar Tage nach der Unter- 
suchung ruft Ihr Arzt Sie an und offenbart Ihnen, dass Ihr Test 
positiv ist. Es sind also Hinweise auf eine Canine Ovorhoe gefun- 
den worden. Ihr Arzt gibt Ihnen zusätzlich folgende Informatio- 
nen: 

1. Zur Zuverlässigkeit des Tests sagt er Ihnen, dass durch ihn die 
Bellsucht bei 99 von 100 Menschen, die von ihr infiziert sind, er- 
kannt wird - nur einer wird übersehen. In 99 Prozent der Untersu- 
chungen Erkrankter liefert der Test also ein positives und richtiges 
Ergebnis, in 1 Prozent der Fälle ein negatives und falsches. An- 
dererseits werden von 100 Nichtinfizierten 98 auch als gesund 
erkannt. Nur zwei geraten fälschlich in den Verdacht, krank zu 
sein (und zu denen möchten Sie gehören). Der Test liefert also in 
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98 Prozent der Untersuchungen Gesunder ein negatives und rich- 
tiges Ergebnis, in 2 Prozent ein positives und falsches. 

2. Über die Bellsucht erfahren Sie, dass sie nur etwa bei jedem 
tausendsten Touristen, der in dem exotischen Land war, auftritt, 
sich aber zunächst durch keine Symptome zu erkennen gibt. 

3. Da Ihr Testergebnis positiv war, ist zur weiteren Abklärung 
ein kleiner chirurgischer Eingriff unter Narkose erforderlich, ver- 
bunden mit einem dreitägigen Klinikaufenthalt. 

Der Test identifiziert mit 99-prozentiger Sicherheit die Erkrank- 
ten und mit 98-prozentiger Sicherheit die Gesunden. Er ist also 
sehr zuverlässig. Und er ist bei Ihnen positiv ausgefallen. Besteht 
Grund, sich ernsthafte Sorgen zu machen? Sie setzen sich in den 
Sessel, erholen sich vom ersten Schock und überlegen sich das 
Ganze in Ruhe. Wie groß ist die Wahrscheinlichkeit, dass Sie an 
Caniner Ovorhoe leiden? Bitte kreuzen Sie an: 


Da mein Testergebnis positiv ist, bin ich mit folgender Wahrschein- 
lichkeit (in Prozent) bellsüchtig: 


1:99 

U 98 

U etwa 95 
[| etwa 50 
[] etwa 5 
u) 
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Sie werden hoffentlich nicht in Panik geraten und, bevor Sie eine 
Operation überhaupt in Erwägung ziehen, auf einer Wiederholung 
des Tests bestehen. Hier die Überlegungen dazu (da man bei vielen 
Zahlen leicht durcheinander gerät, haben wir die Tabelle 1 - siehe 
Seite 19 - erstellt): 

Nehmen wir an, dass sich 100100 Menschen, aus dem exoti- 
schen Land zurückgekehrt, diesem Test unterziehen. Da sich nur 
jeder Tausendste angesteckt hat, sind unter den Getesteten unge- 
fähr 100 Kranke und 100000 Gesunde zu erwarten. Bei 99 der 100 
Bellsüchtigen wird die Infektion durch den Test korrekt festgestellt 


und bei einem fälschlich übersehen (99-prozentige Sicherheit, die 
Erkrankten zu erkennen). Von den 100000 Nichtinfizierten stuft 
der Test 98000 richtig als gesund ein (98-prozentige Sicherheit, die 
Gesunden zu erkennen), den Rest, das heißt 2000 gesunde Men- 
schen, irrtümlicherweise als krank. Insgesamt wurden 99 + 2000 = 
2099 Menschen mit einem positiven Testergebnis erschreckt. Die 
Wahrscheinlichkeit, dass Sie mit Ihrem positiven Test zu den 99 
tatsächlich Bellsüchtigen gehören, beträgt 99/2099 = 0,0472 be- 
ziehungsweise 4,72 Prozent oder etwa 5 Prozent. Diese Zahl ist die 
Lösung in unserem Wahrscheinlichkeitsquiz. In der Regel wird ein 
wesentlich höheres Risiko erwartet. Sollten auch Sie falsch getippt 
haben, dann befinden Sie sich in guter Gesellschaft. Wir haben auf 
Tagungen und Seminaren dieselbe Frage gestellt und anonym be- 
antworten lassen. Egal ob wir Apotheker, niedergelassene Ärzte, 
Medizinstudenten, Patientenberater oder medizinische Laien be- 
fragten: Das Antwortspektrum war immer sehr ähnlich. Nur etwa 
jeder zehnte Befragte gab die richtige Antwort. Weit über die 
Hälfte schätzte die Erkrankungswahrscheinlichkeit viel zu hoch 
(über 90 Prozent) ein. Vermutlich lassen sich die meisten durch die 
hohe Zuverlässigkeit des Tests (99 Prozent und 98 Prozent) beir- 
ren, während die geringe Ansteckungswahrscheinlichkeit über- 
sehen wird. Erschütternd ist dabei, dass dies für Wissenschaftler, 
die zum Teil als Spezialisten für prädiktive Tests angesehen wer- 
den, genauso gilt wie für Laien. 

Sie lassen den Test nach einiger Zeit wiederholen.' Jeder gute 
Mediziner hätte Ihnen das ohnehin vorgeschlagen. Mit Bedauern 
teilt Ihnen der Arzt mit, das Ergebnis sei wieder positiv. Was nun? 


1 Ein zweiter Test ist nur dann sinnvoll, wenn er unabhängig vom ersten 
erfolgt. Dies ist nicht immer möglich. Bei der Mammographie beispiels- 
weise wird eine nach wenigen Tagen durchgeführte zweite Untersuchung 
praktisch dasselbe Bild ergeben wie die erste. Bei der im weiteren Text fol- 
genden Berechnung unterstellen wir außerdem, dass kein systematischer 
Fehler vorliegt. Dies könnte beispielsweise bei einer Blutuntersuchung der 
Fall sein, die zu einem positiven Befund geführt hat, weil der Patient nicht 
nüchtern war, als ihm Blut abgenommen wurde. Wenn er auch bei der 
zweiten Blutabnahme nicht nüchtern ist, wird sich wieder das gleiche fal- 
sche Ergebnis einstellen. 


Tabelle 1: Übersichtstabelle zur Bestimmung der Erkrankungswahrschein- 
lichkeit bei positivem Test auf Bellsucht 


Personen Test positiv Test negativ 
Krank 100 99 13% 
Gesund 100000 2000 * 98000 
Summe 100 100 2099 98001 


* Hier stehen die Gesunden mit dem falsch positiven Ergebnis: 2 Prozent von 
100 000 = 2000. 

** Hier stehen die Kranken mit dem falsch negativen Ergebnis: 1 Prozent von 100 =1. 
Alle weiteren Zahlen ergeben sich durch Addition beziehungsweise Subtraktion in den 
Zeilen und Spalten. 


Die Überlegungen dazu sind dieselben wie oben, nur mit anderen 
Zahlen. Wir erstellen wieder eine Tabelle, die Tabelle 2: Nehmen 
wir an, dass sich alle 2099 Personen mit positivem Ergebnis im ers- 
ten Test, genauso besorgt wie Sie, erneut untersuchen lassen. Da 
der Test auch in der zweiten Runde bei Kranken mit 99-prozenti- 
ger Sicherheit ein positives Ergebnis liefert, können wir davon aus- 
gehen, dass er von den 99 Bellsüchtigen 98 als infiziert und einen 
wieder fälschlich als gesund einstuft. Von den 2000 gesunden Men- 
schen werden jetzt 1960 (= 98 Prozent) richtig für gesund befun- 
den. Beim Rest, 2000-1960 = 40 Gesunden, besteht auch nach 
diesem zweiten Test Bellsuchtverdacht, weil ihr Ergebnis fälschlich 
positiv ausfällt. Diesmal erhalten insgesamt 98+40 = 138 der Un- 
tersuchten ein positives Testergebnis. Die Wahrscheinlichkeit, zu 
den 98 tatsächlich Erkrankten zu gehören, beträgt jetzt 98/138 = 
0,71 oder 71 Prozent. Das ist schon eher ein Grund zur Unruhe, 
aber es bestehen immer noch gute Chancen (29 Prozent), dass Sie 
in Wirklichkeit gesund sind. 

Die Wahrscheinlichkeit, bei positivem Ergebnis tatsächlich er- 
krankt zu sein, schätzen die meisten intuitiv viel zu hoch ein. Dies 
liegt vermutlich daran, dass im Allgemeinen nur die Genauigkeit 
des Tests berücksichtigt wird, aber nicht die Häufigkeit der Krank- 
heit. In unserem Beispiel beträgt sie 1 von 1000. 


Tabelle 2: Übersichtstabelle zur Bestimmung der Erkrankungswahrschein- 
lichkeit, wenn auch der zweite Test auf Bellsucht positiv ausfällt 


Personen mit 


Zweiter Test Zweiter Test 
erstem Test 52 : 
ER positiv negativ 
positiv 
Krank 99 98 1% 
Gesund 2000 40* 1960 
Summe 2099 138 1961 


* Hier stehen die Gesunden mit dem falsch positiven Ergebnis: 2 Prozent von 2000 = 40. 
** Hier stehen die Kranken mit dem falsch negativen Ergebnis: 1 Prozent von 99 = 1. 
Alle weiteren Zahlen ergeben sich durch Addition beziehungsweise Subtraktion in den 
Zeilen und Spalten. 


Es gibt nur wenige Tests, die so genau sind wie der in unserem aus- 
gedachten Beispiel. In der Regel besteht nach einem positiven Re- 
sultat noch viel weniger Grund zur Panik, wie wir anhand aktueller 
Zahlen aus der Brust- und Darmkrebsvorsorge gleich sehen wer- 
den. 

Die Häufigkeit, mit der eine Erkrankung auftritt, wird auf zwei 
unterschiedliche Weisen gemessen: mit der Prävalenz und mit der 
Inzidenz. Die Prävalenz einer Erkrankung folgt aus einer Art Mo- 
mentaufnahme. Man schaut nach, wie viele Personen an einem be- 
stimmten Tag die Erkrankung haben. Wenn von 80000 Einwoh- 
nern unseres fernen exotischen Landes 3200 an Bellsucht erkrankt 
sind, dann beträgt die Prävalenz 3200/80000=0,04 oder 4 Pro- 
zent. 

Bei der Inzidenz kommt der Faktor Zeit mit ins Spiel. Man 
schaut nach, wie viele Personen beispielsweise innerhalb eines Jah- 
res neu erkrankt sind. Nehmen wir an, in unserem Urlaubsland tre- 
ten jährlich 800 Neuerkrankungen auf. Dann beträgt die Inzidenz 
800/80000 pro Jahr = 0,01 pro Jahr oder 1 Prozent pro Jahr. 
Meistens wird die Inzidenz pro 100000 und Jahr angegeben. Hier 
sind es dann 1000 pro 100000 Personen und Jahr. In der Haupt- 
stadt mit 15000 Einwohnern gibt es also jedes Jahr rund 150 Neu- 
erkrankungen. 
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Inzidenz und Prävalenz hängen bei vielen Erkrankungen vom 
Alter ab. So nimmt beispielsweise die Häufigkeit von Krebs- und 
Herz-Kreislauf-Erkrankungen mit dem Lebensalter deutlich zu. 
Wenn eine 53-jährige Frau erstmalig zur Mammographie geht, so 
wird man für die Einschätzung der Aussagekraft eines positiven 
Befundes eher die Prävalenz heranziehen. Wenn sie hingegen nach 
zwei Jahren zu einer Folgeuntersuchung kommt, muss die Inzidenz 
für zwei Jahre zugrunde gelegt werden. 

Bei der Mammographie (Maßnahme zur Brustkrebs-Früherken- 
nung) kommen falsch positive Befunde bei etwa 4 Prozent der Ge- 
sunden vor. Falsch negativ sind etwa 20 Prozent der Ergebnisse, 
das heißt, jeder fünfte Fall von Brustkrebs wird bei der Mammo- 
graphie übersehen. Für Frauen zwischen 50 und 69 Jahren wird in 
Deutschland die Mammographie empfohlen. Für eine Frau aus 
dieser Altersgruppe, die zuvor noch nie zur Mammographie war 
und bei der kein Knoten in der Brust getastet werden kann, beträgt 
die Brustkrebshäufigkeit (Prävalenz) etwa 0,8 Prozent”. Damit er- 
gibt sich Tabelle 3. 

Insgesamt erhalten 4608 Frauen eine positive Diagnose. Diese ist 
jedoch nur bei 640 richtig. Bei 3968 Frauen (entsprechend 
3968/4608=86 Prozent) ist der Befund falsch positiv. Diesen 
Frauen werden zur weiteren Abklärung in aller Regel Biopsien ent- 
nommen, obwohl sie gesund sind. Dies zeigt deutlich, wie wichtig 
es ist, dass erfahrene Ärzte die Untersuchung durchführen. Selbst 
eine scheinbar geringfügige Erhöhung der falsch positiven Befunde 
führt zu einer beachtlichen Zunahme der Frauen, bei denen der 
Eingriff ohne Grund vorgenommen wird. 

95392 Frauen haben ein negatives Testergebnis. Davon sind 
aber 160 trotzdem erkrankt. Man hat den Tumor übersehen. Der 
Befund ist also falsch negativ. Bei 95232 Frauen ist die negative 
Diagnose richtig. Die Wahrscheinlichkeit, bei negativer Diagnose 
tatsächlich gesund zu sein, beträgt somit 95 232/95 392 = 99,83 
Prozent. Vor der Mammographie waren es 99,2 Prozent. Frau 
kann sich mit dieser Diagnose also ein bisschen sicherer fühlen. 


2 Zahlenangaben nach: Mühlhauser & Höldke (2002). 
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Tabelle 3: Ubersichtstabelle zur Bestimmung der Wahrscheinlichkeit einer 
tatsächlichen Brustkrebserkrankung bei positivem Mammographiebefund 
ohne weitere Symptome. Diese Tabelle gilt für Frauen zwischen 50 und 69 
Jahren, die erstmals zur Mammographie gehen. 


Personen | Test positiv Test negativ 
Brustkrebs 800 640 160** 
Gesund 99200 | 3968 * 95232 


100000 | 4608 95392 
95232/95392 = 


0,9983 oder 


Summe 


640/4608 = 0,14 


Diagnose richtig bei oder 14% 


99,83% 
160/95 392 = 
Diagnose falsch bei FREIE 0,0017 oder 
oder 86 % 
0,17% 


* Hier stehen die Gesunden mit dem falsch positiven Ergebnis. 
** Hier stehen die Kranken mit dem falsch negativen Ergebnis. 


Inzidenz und Prävalenz hängen über die Dauer der Erkrankung zu- 
sammen: 


Prävalenz = mittlere Dauer der Erkrankung x Inzidenz 


Bei gleicher Inzidenz wird eine Erkrankung von sehr kurzer Dauer 
auf der Momentaufnahme seltener dabei sein als eine langwierige 
Krankheit. Mit Hilfe dieser Gleichung lässt sich auch die mittlere 
Dauer der Erkrankung bestimmen. In unserem Beispiel mit der 
Bellsucht dauert die Erkrankung 0,04/0,01 pro Jahr = 4 Jahre. 

Es können aber auch erstaunliche Dinge auftreten. Das liegt dar- 
an, dass das Ende einer Erkrankung sowohl durch die ersehnte 
Heilung, aber leider auch durch den Tod eintreten kann. In unserer 
exotischen Ferienheimat hat das Gesundheitsministerium viel Geld 
für die Behandlung der Bellsucht ausgegeben, an der man bekannt- 
lich auch versterben kann. Die Inzidenz blieb daraufhin konstant 
und die Prävalenz stieg an. Ein Schuss, der nach hinten losging? 
Keineswegs. Denn die bessere Behandlung der Erkrankten hat 
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dazu geführt, dass die Bellsüchtigen jetzt deutlich länger leben. Da- 
durch wird die mittlere Dauer der Erkrankung länger und, bei kon- 
stanter Inzidenz, erhöht sich somit die Prävalenz. Und eine Verrin- 
gerung der Prävalenz ? Ist das dann nicht eine Katastrophe? Nicht 
unbedingt. Es hängt davon ab, ob die Abnahme der mittleren 
Dauer der Erkrankung durch früheres Versterben oder durch frü- 
here Heilung bedingt ist. 

Ein anderes Beispiel aus der Krebsfrüherkennung bezieht sich 
auf das Rektumkarzinom (Mastdarmkrebs). Die Wahrscheinlich- 
keit, dass ein siebzigjähriger Mann ohne spezifische Symptome an 
Mastdarmkrebs leidet, liegt in Deutschland bei etwa 0,3 Prozent. 
Das entspricht 300 Kranken unter 100000 Menschen. Bei einem 
gebräuchlichen Test, der über den Nachweis von Blut im Stuhl für 
die Frühdiagnose des Rektumkarzinoms eingesetzt wird, beträgt 
die Wahrscheinlichkeit für falsch positive Testergebnisse 3 Prozent 
und für falsch negative sogar 50 Prozent’. Fällt der Test positiv 
aus, dann beträgt die Wahrscheinlichkeit, tatsächlich an Mast- 
darmkrebs erkrankt zu sein, 150/3141 = 0,0478, also etwa 5 Pro- 
zent (vergleiche Tabelle 4). 

Demnach erhalten 2991 Menschen ein falsch positives Tester- 
gebnis, das heißt, bei ihnen sind die zum Teil unangenehmen an- 
schließenden und nicht risikolosen Untersuchungen (Rektoskopie, 
Röntgenkontrast, Koloskopie) praktisch unnötig. Allerdings wird 
durch diese das Karzinom bei einem von zwanzig insgesamt Unter- 
suchten (150/3141= 1/20) früher entdeckt, was dazu führt, dass er 
eine bessere Heilungschance hat. Für den großen Vorteil, den die 
Früherkennung diesem einen Erkrankten bringt, müssen also viele 
Gesunde Nachteile (Unannehmlichkeiten, eventuell Nebenwirkun- 
gen) in Kauf nehmen. Außerdem besteht ein, wenn auch nur gerin- 
ges, Risiko für schwerwiegende Komplikationen bei der Vorberei- 


3 Die Angabe einer Prävalenz von 0,3 Prozent (Thomas 1992) ist natür- 
lich ein Durchschnittswert. Da die Wahrscheinlichkeit, an Enddarmkrebs 
zu erkranken, mit dem Alter zunimmt, ist die Prävalenz bei jungen Men- 
schen deutlich geringer und bei älteren deutlich höher. Bei jungen Men- 
schen ist dieser Test nicht sinnvoll, weil es zu viele falsch positive und kaum 
richtig positive Ergebnisse gibt. In unserem Buch «Der Schein der Weisen » 
finden Sie weitere Hinweise zu Nutzen und Risiken des Haemokkult-Tests. 
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Tabelle 4: Übersichtstabelle zur Bestimmung der Wahrscheinlichkeit einer 
tatsächlichen Mastdarmkrebserkrankung bei positivem Testergebnis 


Personen Test positiv Test negativ 
Mastdarmkrebs 300 150 150** 
Gesund 997700 2991 * 96 709 
Summe 100000 3141 96 859 


* Hier stehen die Gesunden mit dem falsch positiven Ergebnis: 3 Prozent von 
99700 = 2991. 

** Hier stehen die Kranken mit dem falsch negativen Ergebnis: 50 Prozent von 300=150. 
Alle weiteren Zahlen ergeben sich durch Addition beziehungsweise Subtraktion in den Zei- 
len und Spalten. 


tung der Koloskopie (Elektrolytentgleisung), der eventuellen Nar- 
kose und bei der eigentlichen Untersuchung, bis hin zu schweren 
Verletzungen (Perforation) und Tod. 

Die Wahrscheinlichkeit, dass sich Untersuchte mit einem negati- 
ven Ergebnis in falscher Sicherheit wiegen und doch ein unerkann- 
tes Rektumkarzinom haben, beträgt 150/96 859 = 0,00155 be- 
ziehungsweise 0,155 Prozent. Die Prävalenz der Nichtgetesteten 
betrug, wie erwähnt, 0,3 Prozent. Mit einem negativen Testergeb- 
nis können Sie es sich jetzt leisten, Ihre Unsicherheit hinsichtlich 
Mastdarmkrebses um die Hälfte zu reduzieren (0,155/0,3 = 1/2). 
An Sicherheitsgewinn bringt der Test Ihnen allerdings nur 
0,3-0,155 = 0,145 Prozent. 

Ein weiteres Beispiel betrifft Aids, das heißt den HIV-Test*. Er 
ist einer der zuverlässigsten Tests, die jemals entwickelt wurden. 
Falsch negative Ergebnisse kommen praktisch nicht vor. Und 
wenn doch einmal wie 1997 mit dem Test eines bestimmten Her- 
stellers europaweit vier Fälle übersehen werden, dann berichtet 
darüber die Tagespresse. Zu beachten ist allerdings, dass sich das 
HIV erst vier bis acht Wochen nach der Ansteckung nachweisen 


4 Für die Informationen zum HIV-Test danken wir Frau Dr. Knödler von 
der Blutbank sowie Herrn Helfer und Frau Dr. Polywka vom Institut für 
Medizinische Mikrobiologie und Immunologie der Universität Hamburg. 
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lässt. Wenn innerhalb dieses Zeitraums der Test trotz Infektion ein 
negatives Ergebnis liefert, dann wird das selbstverständlich nicht 
als falsch negativ gewertet. Falsch positive Ergebnisse sind eben- 
falls außerordentlich selten, sie liegen bei etwa 0,2 Prozent. 

Überraschenderweise hängt die Wahrscheinlichkeit, dass ein 
Test-Positiver tatsächlich HIV-infiziert ist, auch davon ab, wo 
er untersucht wurde, selbst wenn die durchgeführten Tests 
überall die gleichen sind. Um dies zu verdeutlichen, zeigen wir 
Ihnen die Daten von zwei Institutionen mit sehr unterschiedlicher 
Klientel. 

Unter den insgesamt etwa 20000 Blutspendern eines großen 
deutschen Krankenhauses gab es in den letzten zehn Jahren nur 
einen einzigen Ansteckungsfall. Mit dieser Häufigkeit ergibt sich 
folgende Tabelle: 


Tabelle 5: Übersichtstabelle zur Bestimmung der Wahrscheinlichkeit einer 
HIV-Infektion bei Blutspendern mit positivem Testergebnis (ELISA) 


Personen Test positiv Test negativ 
HIV-infiziert 1 1 0** 
Gesund 19999 40* 19959 
Summe 20000 41 19.959 


* Hier stehen die Gesunden mit dem falsch positiven Ergebnis: 0,2 Prozent von 
19999 = 40. 

** Beim HIV-Test gibt es praktisch keine falsch negativen Ergebnisse. 

Alle weiteren Zahlen ergeben sich durch Addition beziehungsweise Subtraktion in den Zei- 
len und Spalten. 


Nur einer von 41 Blutspendern mit positivem Testergebnis war tat- 
sächlich mit dem Aidsvirus infiziert. Die Wahrscheinlichkeit, sich 
angesteckt zu haben, betrug bei ihnen also lediglich 1/41=2,4 Pro- 
zent. 

In einem norddeutschen diagnostischen Labor hingegen liegt die 
Prävalenz mit 1,5 Prozent wesentlich höher, was darauf zurückzu- 
führen ist, dass hier die Proben zum großen Teil von Personen stam- 
men, die Anlass haben, sich einem HIV-Test zu unterziehen, wäh- 
rend bei der Blutbank aus Sicherheitsgründen das Blut aller Spender 
untersucht wird. Mit der höheren Prävalenz ergibt sich Tabelle 6. 
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Tabelle 6: Übersichtstabelle zur Bestimmung der Wahrscheinlichkeit einer 
HIV-Infektion bei ELISA-Test-Positiven, deren Blut in einem diagnostischen 
Labor untersucht wurde 


Personen Test positiv Test negativ 
HIV-infiziert 300 300 0‘** 
Gesund 19700 39* 19 661 
Summe 20000 339 19661 


* Hier stehen die Gesunden mit falsch positivem Ergebnis: 0,2 Prozent von 19700 = 39. 
** Beim HIV-Test gibt es praktisch keine falsch negativen Ergebnisse. 

Alle weiteren Zahlen ergeben sich durch Addition beziehungsweise Subtraktion in den 
Zeilen und Spalten. 


Die Wahrscheinlichkeit, dass bei einem positiven Testergebnis tat- 
sächlich eine HIV-Infektion vorliegt, ist hier deutlich größer. Sie 
beträgt 300/339 = 0,885 oder 88,5 Prozent. Diese enorm unter- 
schiedlichen Wahrscheinlichkeiten kommen dadurch zustande, 
dass die beiden Populationen verschiedene Risikogruppen reprä- 
sentieren. Die eben berechneten Wahrscheinlichkeiten sind ein 
Maß für die Zuverlässigkeit des Tests in einer bestimmten Umge- 
bung, also unter Berücksichtigung der Klientel der Institution, die 
die Untersuchungen durchführt. Bei einem positiven Testergebnis 
führt sie mit der ursprünglich gewonnenen Blutprobe einen zwei- 
ten Test durch, den so genannten Immunoblot, der eine deutlich 
geringere Rate an falsch positiven Resultaten hat, aber auch erheb- 
lich teurer und aufwendiger ist. Mit ihm können praktisch alle 
Fehldiagnosen ausgeschaltet werden. Bei den dann immer noch po- 
sitiven Patienten wird so rasch wie möglich ein zweites Mal Blut 
abgenommen und der Test wiederholt. Dies ist auch deshalb not- 
wendig, weil sich eine Verwechslung von Blutproben nie ganz aus- 
schließen lässt. Auch Verfahrensfehler sind möglich, werden aller- 
dings weitgehend durch Kontrollproben vermieden. Erst wenn das 
Ergebnis des zweiten Tests wiederum positiv ist, wird der Patient 
informiert, und zwar umgehend. 

Zum Schluss sei angemerkt, dass es einem Menschen mit einer 
eventuellen HIV-Infektion nichts nützt, ein Untersuchungslabor 
mit möglichst kleiner Prävalenz aufzusuchen. Die Wahrscheinlich- 
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keit, dass er sich angesteckt hat, hängt nicht von der nachträg- 
lichen Entscheidung ab, wo er sich untersuchen lässt. 


Wir backen uns eine Schlagzeile 
Zufällige und echte Häufung 


Immer wenn man die Meinung der Mehrheit teilt, 
ist es Zeit, sich zu besinnen. 
Mark Twain 


Jahrelang keinen Platten am Fahrrad und jetzt gleich zwei inner- 
halb eines Monats! Ist das Zufall? Sabotage? Oder brauche ich 
neue Reifen? — Zurzeit werden viele Zwillinge geboren: bei uns 
gegenüber im ersten Stock und bei der besten Freundin meiner 
Cousine auch. Ist das Zufall oder auf die Wirkung von Hormo- 
nen im Trinkwasser zurückzuführen? — Ein kleiner Ort in Ober- 
bayern hat 2873 Einwohner. Vier davon sind über hundert Jahre 
alt. Ist das Zufall? Liegt es an der Landluft? Oder an gesunder 
Lebensführung? - In der Samtgemeinde Elbmarsch nahe dem 
Kernkraftwerk Krümmel bei Hamburg erkrankten zwischen Fe- 
bruar 1990 und Mai 1991 fünf Kinder an Leukämie. Kann das 
Zufall sein? 

Von der Statistik erhoffen wir uns Hilfe bei der Unterscheidung 
von zufälligen und systematischen Ereignissen. Das hört sich ver- 
dächtig nach Mathematik an, die nicht jedermanns Sache ist. Des- 
halb haben wir sie in die Fußnoten und in den Anhang verbannt. 
Wer es nicht so genau wissen will, kann das Kleingedruckte getrost 
auslassen. Um Sie mit der für Fragen wie die oben gestellten zu- 
ständigen Statistik-Spezialität anzufreunden, schlagen wir Ihnen 
eine Aufwärmübung am Backofen vor. 
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Statistik für Kuchenesser 
Wie sieht eine zufällige Verteilung aus? 


Als Lehrende an der Universität Hamburg machen wir regelmäßig 
die Erfahrung, dass falsche Vorstellungen darüber bestehen, wie 
etwas aussieht, das zufällig entstanden ist. Wir möchten Ihnen 
daher ein einfaches praktisches Beispiel vorführen. 

Sie backen einen Kuchen. In Abwandlung des Originalrezepts 
geben Sie zwanzig Kaffeebohnen in den fertigen Teig. Bitte gründ- 
lich umrühren. Nach dem Backen soll der Kuchen in zwanzig 
gleich große Stücke zerschnitten werden. Während er im Ofen ist, 
haben wir Zeit, darüber nachzudenken, wie viele Bohnen Sie in 
den einzelnen Kuchenstücken erwarten können. 

Im Mittel befindet sich in jedem Stück eine Bohne. Wenn das 
aber tatsächlich der Fall ist, dann liegt der Verdacht nahe, dass der 
Bäcker nicht einfach gerührt, sondern den Kuchen sorgsam gar- 
niert hat. Man kann ausrechnen!, dass alle Bürger der Bundesre- 
publik Deutschland einen Kuchen backen müssen, damit zufällig 
etwa zwei Kuchen mit gleichmäßig verteilten Kaffeebohnen entste- 
hen. Am unwahrscheinlichsten ist es, dass alle zwanzig Bohnen zu- 
fällig in einem einzigen Stück landen. Da können Sie jede Wette 
eingehen, dass der Bäcker nicht richtig gerührt oder ganz unzufäl- 


1 Um die Wahrscheinlichkeit für diese ganz gleichmäßige Verteilung der 
Kaffeebohnen zu berechnen, stellen Sie sich vor, dass sie nacheinander in 
den Kuchen gelangen. Die erste Bohne hat die freie Auswahl. Die zweite 
darf sich nur nicht das Stück aussuchen, in dem sich bereits die erste befin- 
det. Sie hat daher nur noch neunzehn der zwanzig Wahlmöglichkeiten. 
Bohne Nummer drei darf weder in das Stück der ersten noch in das der 
zweiten gelangen, sie hat nur noch achtzehn von zwanzig Optionen. So geht 
es weiter bis zur letzten Bohne. Sie hat überhaupt keine Alternative mehr, 
sie muss das übrig gebliebene zwanzigste Stück nehmen. Hieraus ergibt 
sich folgende Formel: 20/20x19/20x18/20x...x 1/20=0,000000023 
oder 1:43099804. (Allgemein gilt n!/n”, was wir später genauer er- 
klären werden.) Bei etwa 80000000 backenden Bundesbürgern sind 
also im Mittel etwa zwei Kuchen mit gleichmäßiger Bohnenverteilung zu er- 
warten. 
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lig nachgeholfen hat.” Wir können viel eher Kuchenstücke mit 
zwei, drei oder mehr Kaffeebohnen und entsprechend viele ohne 
Bohne erwarten. Am wahrscheinlichsten ist es, dass wir sieben 
Stücke ohne, sieben mit einer, fünf mit zwei und ein Stück mit 
drei Kaffeebohnen vorfinden. 

Mit derartigen Häufungen sind wir bei dem Stoff, aus dem 
Schlagzeilen gebacken werden, und bei dem Problem, Zufälle und 
Ursachen auseinander zu halten. Ist schlampig gerührt worden, 
wenn wir einmal sechs Bohnen in einem Kuchenstück finden ? 
Oder kann das noch Zufall sein? Wenn in einer Kleinstadt inner- 
halb von fünfzehn Monaten fünf Fälle einer Leukämie im Kindes- 
alter auftreten: Kann das Zufall sein, oder ist es ein Beweis für eine 
Gefährdung, deren Ursache und Verursacher unverzüglich gefun- 
den werden müssen ? 


Über Zufälle und Ursachen: 
ein Leukämieszenario 


Im folgenden simulierten Szenario werden Sie erfahren, wie etwas 
Zufälliges entsteht und wie es aussieht. 

Als Versuchsfeld benötigen wir ein großes Quadrat mit 
6x6=36 Feldern (Abbildung 1) und zwei unterscheidbare Wür- 
fel, zum Beispiel einen schwarzen und einen weißen. Jedes Feld 
ist, wie beim Spiel «Schiffe versenken», durch zwei Zahlen ge- 


2 Um die Wahrscheinlichkeit für diesen Fall zu berechnen, stellen Sie sich 
erneut vor, dass die Kaffeebohnen nacheinander in den Kuchen gelangen. 
Die erste hat wieder die freie Auswahl unter allen zwanzig Stücken. Alle 
folgenden Bohnen müssen dann aber in genau dasselbe Stück geraten, was 
für jede mit einer Wahrscheinlichkeit von 1/20 geschieht. Dass dies bei al- 
len neunzehn folgenden Bohnen der Fall ist, hat eine Wahrscheinlichkeit 
von (1/20) '”=0,000000000000000000000000191. Wenn alle sechs Mil- 
liarden Menschen auf der Erde ununterbrochen jede Sekunde einen sol- 
chen Kuchen backen, dann tritt dieses Ereignis im Schnitt alle 28 Millionen 
Jahre einmal zufällig auf. 
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kennzeichnet. Der weiße Würfel gibt die Zeile und der schwarze 
die Spalte an. Nach dem Werfen zum Beispiel einer weißen Zwei 
und einer schwarzen Vier wird das Feld in der zweiten Zeile und 
der vierten Spalte mit einem senkrechten Strich markiert. Wird 
ein Feld mehrmals getroffen, erhält es jedes Mal einen weiteren 
Strich. 


Schwarz 


Abbildung 1: Versuchsfeld für ein simuliertes Leukämieszenario mit einem 
Kernkraftwerk, einer Chemiefabrik, einer Mülldeponie und einer Hoch- 
spannungsleitung. Der erste simulierte Leukämiefall trat im Feld 2-4 auf 
(senkrechter Strich). 


Um unserem Versuchsfeld einen realistischen Bezug zu geben, 
haben wir daraus eine Landkarte gemacht und sie mit Merkmalen 
einer Industrielandschaft versehen: einem Kernkraftwerk, einer 
Chemiefabrik, einer Hochspannunggsleitung und einer Mülldepo- 
nie. Jeder gewürfelte Strich entspricht einem Fall einer seltenen Er- 
krankung, beispielsweise einer Leukämie im Kindesalter. 
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Wir beginnen jetzt mit dem Versuch, indem wir die Würfel wer- 
fen und den ersten Treffer eintragen (Abbildung 1). In unserem Bei- 
spiel trat der erste Fall im Feld 2-4 auf. Die durchschnittliche Leu- 
kämierate auf dem gesamten Versuchsfeld ist jetzt 1/36, denn wir 
haben einen Treffer auf sechsunddreifßig Kästchen. Im markierten 
Feld beträgt die Leukämierate 1. Sie liegt um den Faktor 36 über 
dem Durchschnitt. Das ist zwar zweifellos eine richtige Feststel- 
lung, aber ohne Relevanz, denn irgendwo musste der Treffer ja 
schließlich landen. 

Die nächste Abbildung zeigt unser Versuchsfeld nach zehn 
Würfen. Der letzte Treffer ist im Feld 6-1, also links oben in der 
Ecke, gelandet. Dort befinden sich jetzt zwei Striche. Vor dem 
zehnten Wurf gab es neun Felder mit jeweils einem Treffer. Die 


Schwarz 


Abbildung 2: Simuliertes Leukämieszenario nach Auftreten des zehnten 
simulierten Leukämiefalls. Die Leukämierate ist im Feld 6-1 mit zwei Fäl- 
len gegenüber dem Durchschnitt siebenfach überhöht. 
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Wahrscheinlichkeit, dass der zehnte zu einem bereits markierten 
Quadrat führen würde, betrug 9/36 = 0,25 = 25 Prozent. Im Mit- 
tel haben wir jetzt 10/36 = 0,28 Leukämien pro Feld. Im Qua- 
drat links oben traten jedoch zwei Fälle auf. Das Risiko ist dort 
siebenfach überhöht (2/0,28 = 7,1), während es in den Kästchen 
mit einem Fall um das Drei- bis Vierfache über dem Mittelwert 
liegt (1/0,28 = 3,6). 

Pressemeldungen über horrende Risikoerhöhungen beruhen 
häufig auf ähnlich unsinnigen Berechnungen. So erschien ein Be- 
richt in der Zeitschrift Fortschritte der Medizin mit dem Titel 
«Erhöhtes Leukämierisiko in der Region um La Hague». La 
Hague ist eine Wiederaufbereitungsanlage für Kernbrennstoffe in 
Frankreich. Bei der beschriebenen Untersuchung, die die in der 
Umgebung der Anlage aufgetretenen Leukämiefälle der letzten 
fünfzehn Jahre berücksichtigt, wurden «vier Leukämiefälle an- 
stelle der zu erwartenden 1,4 Fälle ermittelt. Hier erscheint das 
Leukämierisiko demnach um den Faktor 3 erhöht.» Dieser Bericht 
erinnert sehr stark an unser Würfelexperiment. Das Problem bei 
seltenen Erkrankungen sind die sehr geringen Fallzahlen, die es 
nicht erlauben, zufällige Häufungen von systematischen zu unter- 
scheiden. 

Nach insgesamt 36 Würfen, also im Durchschnitt einem Tref- 
fer pro Feld, ergab sich bei uns (Abbildung 3) eine deutliche 
Leukämiehäufung in der Nähe des Kernkraftwerkes und um die 
Chemiefabrik herum. Es gehört nicht viel Phantasie dazu, 
sich die entsprechenden Schlagzeilen in der Regionalpresse vor- 
zustellen. 

Unser Beispiel könnte manipuliert sein. Dies lässt sich am besten 
überprüfen, indem Sie den Versuch selbst wiederholen. Zeichnen 
Sie Ihre eigene Industrielandschaft in Abbildung 4 ein, und würfeln 
Sie 36-mal. Bei der späteren Beurteilung der Sachlage auf Ihrem 
Spielfeld und der anschließenden Suche nach einem Schuldigen 
werden Sie immer einen Weg finden, die Risikoerhöhung Ihrem 
Lieblingsverursacher in die Schuhe zu schieben. 

In der Realität treten neben räumlichen auch zeitliche Häufun- 
gen auf. Dies ist einfach zu verstehen. Sie müssen sich dazu nur die 
36 Felder unseres Szenarios als aufeinander folgende Tage, Wo- 
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Abbildung 3: Simuliertes Leukämieszenario nach Auftreten von 36 «Fäl- 
len». Sie sind gewürfelte Zufallstreffer mit im Durchschnitt einem Fall pro 
Feld. Es ergaben sich deutliche Häufungen in der Umgebung des Kern- 
kraftwerks und der Chemiefabrik. 


chen, Monate usw. vorstellen. Schon erhalten Sie Zeitabschnitte, in 
denen sich seltene Ereignisse plötzlich häufen. Wir werden später 
in diesem Kapitel darauf zurückkommen. 

Es gibt statistische Verfahren, mit denen Vorhersagen für das 
6x6-Feld berechnet werden können.? Um unsere und Ihre eigenen 


3 Der französische Mathematiker Simon-Denis Poisson (1781-1840) ent- 
wickelte eine nach ihm benannte Statistik, mit der man unter anderem das 
Bohnenproblem behandeln kann. Die Formel der Poisson-Verteilung sieht 
folgendermaßen aus: 
me" 

x! 


P(x,m) = 


Das Ausrufezeichen ist Absicht und kein Druckfehler. «x!» spricht man 
«x-Fakultät» aus. Leser, die diesen Ausdruck noch nicht kennen, bitten 
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Ergebnisse mit dieser Prognose zu vergleichen, zählen Sie bitte die 
Kästchen, die keinen, einen, zwei, drei usw. Treffer abbekommen 
haben, und tragen Sie das jeweilige Ergebnis in Tabelle 7 ein. Zur 
Probe addieren Sie die Zahlen und überprüfen, ob auch genau 36 
herauskommt. 

Statistisch erwartet man im Durchschnitt etwa dreizehn Käst- 
chen ohne Treffer und dieselbe Anzahl mit einem Treffer. Bei unse- 
rem Versuch waren es vierzehn und zwölf. Auch die anderen 
Resultate stimmen ganz gut damit überein, aber perfekte Überein- 
stimmung darf man nicht erwarten, da ja stets der Zufall mit im 
Spiel ist. 

Betrachten wir die Vorhersage nochmals genauer. Der Durch- 
schnittswert nach 36 Würfen ist genau ein Treffer pro Kästchen. 
Statistisch ist ein vierfach getroffenes Feld in ungefähr jeder zwei- 
ten Simulation (1/0,54=1,85=2), ein Fünffachtreffer in jeder 
neunten (1/0,11=9,09 = 9) zu erwarten. 

Würfeln Sie jetzt so lange weiter, bis auch das letzte Kästchen 
einen Strich bekommen hat. Das ist zwar etwas langwierig, aber 
man kann dabei einiges an «Gefühl» für Statistik erwerben. Wir 
benötigten insgesamt 117 Würfe (Abbildung 5), bis das letzte Feld 
getroffen war. Und da hatten wir noch Glück, denn in 50 Prozent 


wir um etwas Geduld. Wir werden im Kapitel «Fußball, Zufall, Sensa- 
tionen» ausführlich erläutern, was dahinter steckt. Der Buchstabe m be- 
zeichnet die mittlere Anzahl Treffer pro Feld. Bei uns istm=1, denn wir ha- 
ben 36 Treffer und 36 Felder. Wenn wir wissen wollen, wie wahrscheinlich 
es ist, dass in einem Feld drei Treffer landen, dann müssen wir x=3 einset- 
zen. P(x=3, m=1) ist dann die gesuchte Wahrscheinlichkeit. Sie beträgt 
0,061, entsprechend 6,1 Prozent oder etwa 1:15 in der Zockernotierung. 
Für zehn Treffer liegt sie schon bei 1:9860000. Wenn wir uns lediglich da- 
für interessieren, wie groß die Wahrscheinlichkeit für Felder ohne Treffer 
ist, so vereinfacht sich die Poisson-Verteilung zu der Gleichung: 
P(0,m)=e”". Für m=1 ist dann P(0,1)=e"'=0,37=37 Prozent. Dabei ist es 
erstaunlicherweise egal, ob wir 36 Treffer auf 36 Felder oder 1000 Treffer 
auf 1000 Felder verteilen. Wichtig ist nur, dass m=36/ 36=1000/1000=1 
ist. Für eine Gleichverteilung mit genau einem Treffer in jedem Feld 
brauchen Sie viel Geduld. Die Wahrscheinlichkeit dafür beträgt 
361/(36°°)=1:285 992 600 000 000. 
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Abbildung 4: Versuchsfeld für Ihr eigenes Szenario. Zeichnen Sie eine 
Landschaft Ihrer Wahl ein, und würfeln Sie 36-mal. 


der Fälle sind dafür mehr als 143 Versuche erforderlich.* Das am 
häufigsten gewürfelte Kästchen erhielt neun Striche. Die Verteilung 
der Treffer ist alles andere als gleichmäßig. 

Mit diesem Versuch lässt sich natürlich nicht beweisen, dass die 
Leukämiehäufungen in der Umgebung von Krümmel nicht auf das 
Kernkraftwerk zurückzuführen sind. Er zeigt lediglich, dass Häu- 
fungen zufällig sein können, auch wenn sie den Durchschnittswert 
um ein Vielfaches übersteigen. 


4 Um dies zu berechnen, kommen wir auf die vereinfachte Form der Pois- 
son-Gleichung zurück, die am Ende der Fußnote 3 steht. Die Frage lautet: 
Für welches m gilt [1-P(0,m)]*=0,5? Es folgt: 1-P(0,m)=0,5 '*; P(O,m) 
= 1-0,5 ''%° = e"; -m = In(1-0,5 '"*°) = In(0,019) = -3,96. Daraus folgt 
m=3,96, das heißt, alle Kästchen müssen im Mittel 3,96-mal getroffen wer- 
den, damit mit 50 Prozent Wahrscheinlichkeit jedes Feld mindestens einen 
Strich erhält. Insgesamt muss dann 36x 3,96=143-mal gewürfelt werden. 
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Tabelle 7: Auswertungstabelle für das Leukämieszenario 


Anzahl der Ihr ER Statistische Vorhersage‘ 
Treffer N Anzahl der Wahrschein- 
pro Kästchen Kästchen lichkeit 

0 —_ 14 13,2 0,37 

1 — 12 13,2 0,37 

2 —_ 6 6,6 0,18 

3 — 4 2,2 0,061 

4 —_ 0 0,54 0,015 

5 —_ 0 0,11 0,0031 


Das oben beschriebene Szenario ist jedoch idealisiert. Jedes Käst- 
chen hat genau dieselbe Chance, einen Treffer abzubekommen. In 
der Realität ist das anders. Die Bevölkerung in Deutschland ist ja 
keineswegs gleichmäßig verteilt. Auf einem Quadratkilometer 
Großstadt sind dadurch natürlich mehr Leukämiefälle zu erwarten 
als auf einem Quadratkilometer Heidelandschaft. 

Um der Realität etwas näher zu kommen, haben wir in unserer 
Vorlesung mit Hilfe eines Zufallsverfahrens die Adressen von drei- 
ßig simulierten «Leukämiefällen» aus dem Hamburger Telefon- 
buch herausgesucht. Dies entspricht etwa der Anzahl von Leuk- 
ämien bei Kindern, die in Hamburg innerhalb von drei Jahren 
auftreten. Für jeden einzelnen «Fall» legten wir zunächst durch 
Würfeln das jeweilige Telefonbuch (A-K oder L-Z) fest. Dann be- 
stimmten wir mit einem zwölfseitigen und zwei zehnseitigen Wür- 
feln die Seitenzahl, mit einem vierseitigen Würfel die Spalte und 
mit einem Dreißigerwürfel den Abstand der Adresse vom oberen 
Rand des Telefonbuches. Die auf diese Weise ermittelten «Fälle» 
wurden auf einem Stadtplan markiert. 

Das Ergebnis einer derartigen Simulation zeigt Abbildung 6. Im 
Stadtteil Winterhude gab es eine deutliche Häufung der «Leuk- 


5 Die Wahrscheinlichkeit multipliziert mit der Anzahl der Felder (=36) er- 
gibt die zu erwartende Anzahl der Felder mit null, einem, zwei usw. Tref- 
fern. 
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Abbildung 5: Das Szenario von Abbildung 3, nachdem so lange gewürfelt 
wurde, bis alle Felder mindestens einmal getroffen waren. In diesem Bei- 
spiel waren 117 Würfe erforderlich. 


ämiefälle». Dort wurden vier Erkrankungen im Umkreis von nur 
achthundert Metern beobachtet (Pfeil). Versuchen Sie sich vorzu- 
stellen, welche Reaktionen Sie ernten würden, wenn Sie auf einer 
Veranstaltung einer Bürgerinitiative von Eltern leukämiekranker 
Kinder behaupteten, es handle sich möglicherweise um eine zufäl- 
lige Häufung. Wahrscheinlich und verständlicherweise würde man 
Sie als menschenverachtenden Zyniker beschimpfen. 

Wie bereits angedeutet, entstehen die Häufungen in diesem Ver- 
such nicht nur zufällig, sondern auch systematisch, denn die Tele- 
fonanschlüsse sind nicht gleichmäßig über das Stadtgebiet verteilt. 
Bei der Interpretation von Häufungen müssen daher unbedingt die 
Bevölkerungs- und, wenn es um speziell im Kindesalter auftretende 
Erkrankungen geht, die Kinderdichte in den verglichenen Gebieten 
berücksichtigt werden. 

Bei unserem Versuch haben wir nur ein bestimmtes zeitliches 
Fenster von drei Jahren ausgewählt. Ein «Wissenschaftler», der 
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Abbildung 6: Ergebnis der Simulation eines Leukämieszenarios mit Hilfe 
des Hamburger Telefonbuches und Stadtplans sowie mehrerer Würfel. Die 
Punkte stellen die dreißig simulierten Fälle dar. Die gestrichelte Linie gibi 
die Grenze des verwendeten Stadtplans an. Erstellt in unserer Vorlesung 
im Wintersemester 1995 / 96. 


gern in die Medien kommen und den Journalisten dafür eine 
Schlagzeile liefern möchte, kann den Zeitraum auch nachträglich 
festlegen. Dies entspricht der Möglichkeit, den oben geschilderten 
Versuch mehrfach zu wiederholen und dann das passendste Ergeb- 
nis auszusuchen. Auch können verschiedene Städte, Industrie- 
standorte usw. betrachtet werden. Dies führt mit Sicherheit zu 
einer Aufsehen erregenden Meldung. Wenn nicht in Hamburg, 
dann in München oder Gorleben oder anderswo. Weshalb das mit 
Sicherheit funktioniert, erfahren Sie im Kapitel «Mit der Schrot- 
flinte in den Porzellanladen». Wir haben den Stadtplan- und den 
zuvor beschriebenen 6x6-Versuch schon oft mit Studenten in der 
Vorlesung durchgeführt und sind noch nie in Verlegenheit geraten. 
Es gab immer «ungewöhnliche» Häufungen, und einen «Verursa- 
cher» haben wir auch jedes Mal gefunden.° 


6 ... bis auf eine einzige Ausnahme: Bei einem Versuch mit dem 6x 6-Feld 
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Abbildung 7: Der texanische Scharfschütze schießt auf ein Tor, malt um 
das Einschussloch eine Zielscheibe und freut sich über den Volltreffer. 


Dieses Herauspicken von Häufungen wird von Statistikern die Me- 
thode des texanischen Scharfschützen genannt’: Ohne lange zu zie- 
len, schießt er auf ein riesiges Scheunentor, zeichnet nachträglich 
eine Zielscheibe um das Einschussloch und freut sich über seinen 
perfekten Treffer. Ein wirklicher Meisterschütze ist natürlich nur 
jemand, der ein vorher angegebenes Ziel zu einem vorher festge- 
setzten Zeitpunkt trifft. 


fielen die ersten 22 Treffer auf freie Felder. Erst der 23. Treffer landete auf 
einem bereits besetzten Feld. Danach war es uns nicht mehr möglich, den 
betroffenen Studenten das Lernziel zu vermitteln. 

7 Den Hinweis auf den texanischen Scharfschützen verdanken wir Herrn 
Prof. Dr. Jürgen Berger, dem ehemaligen Direktor des Instituts für Mathe- 
matik und Datenverarbeitung in der Medizin, Universität Hamburg. 
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Ein Unglück kommt selten allein 
Zeitliche Häufungen 


Die Beispiele mit den Kaffeebohnen und den Leukämiefällen illu- 
strieren die Problematik zufälliger räumlicher Häufungen. Im Fol- 
genden wollen wir die Problematik zeitlicher Häufungen mit einer 
kleinen praktischen Übung veranschaulichen. In Abbildung 9 se- 
hen Sie einhundert kleine Quadrate in einer Schlangenlinie. Sie 
stellt die zeitliche Abfolge von Ereignissen dar. Beginnen Sie links 
oben, und werfen Sie, während Sie der Linie folgen, bei jedem 
Kästchen einmal eine Münze. Das erste Kästchen steht für das erste 
Ereignis, das letzte Kästchen für das letzte. Bei Kopf tragen Sie ein 
Kreuz ein, bei Zahl einen Kreis. Schneller geht es mit einem Würfel. 
An die Stelle von Kopf oder Zahl treten dann gerade und ungerade 
Zahlen. 

Die Wahrscheinlichkeit, Kopf zu werfen, beträgt 0,5 oder 50 
Prozent. Die Wahrscheinlichkeit, dass zweimal hintereinander 
Kopf fällt, beträgt 0,5x0,5 = 0,25 oder 25 Prozent. Die Wahr- 
scheinlichkeit, fünfmal hintereinander Kopf zu werfen, beträgt 
0,5x0,5x0,5x0,5x0,5=0,5°=0,03125 oder etwa 3 Prozent. Je 
länger eine Kopfserie ist, desto unwahrscheinlicher ist sie also. Die- 
selben Überlegungen gelten natürlich auch für «Zahl». 

Nachdem alle Kästchen aufgefüllt sind, suchen Sie nach zeit- 
lichen Häufungen. Ununterbrochene Folgen von fünf oder mehr 
Kreuzen beziehungsweise Kreisen sind statistisch gesehen auffäl- 
lige Überhöhungen. Markieren Sie sie bitte. 

Sie werden feststellen, dass sich eine oder sogar mehrere Über- 
höhungen ergeben haben; dass Sie keine bekommen, ist nicht aus- 
geschlossen, aber selten. Dies liegt daran, dass Sie insgesamt ein- 
hundertmal gewürfelt und nachträglich Häufungen gezählt haben. 
Unsere im vorletzten Absatz angestellte Berechnung gilt nämlich 
nur, wenn wir 1. vor dem ersten Münzwurf festlegen, ob wir Kopf 
oder Zahl sammeln wollen, und 2. auf Anhieb eine ununterbro- 
chene Folge zustande bringen. 

Diese relativ einfache Überlegung bleibt häufig unberücksich- 
tigt. Oftmals werden klinische Studien durch das gehäufte Auftre- 
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ten seltener Ereignisse überhaupt erst initiiert. Gelingt es etwa ei- 
nem Ärzteteam, eine nur extrem selten zu heilende Krankheit in 
einem relativ kurzen Zeitraum mehrfach erfolgreich zu behandeln 
oder treten seltene Nebenwirkungen zeitlich gehäuft auf°, so führt 
dies oft zu rückwirkenden Untersuchungen mit anschließender 
Veröffentlichung. Der dabei retrospektiv einbezogene Zeitraum ist 
willkürlich und häufig, bewusst oder unbewusst, dem gewünsch- 
ten Ergebnis angepasst. Die richtige Vorgehensweise wäre es, den 
zu erfassenden Zeitraum vorher festzulegen. Die Ergebnisse sol- 
cher retrospektiven Studien erfordern vom wissenschaftlichen 
Standpunkt aus eine Wiederholung. 

Unsere Beispiele zeigen, dass nicht jede unwahrscheinliche Häu- 
fung von Ereignissen statistisch bedeutsam ist. Ob eine Überhö- 
hung unwahrscheinlich ist, hängt auch von der Anzahl der durch- 
geführten Tests ab. So beträgt beispielsweise die Wahrscheinlich- 
keit, beim Lotto sechs Richtige zu tippen, 1 zu 13983 816 und ist 
somit äußerst gering. Wenn das Glück aber entsprechend extrem 


Abbildung 8: Versuchsfeld für die Simulation zeitlicher Häufungen 


8 Ein Beispiel hierfür ist der Bericht über eine ungewöhnliche Häufung 
von Myelitiden in der CHART-Studie (Dische und Saunders 1989; Dische 
1991). 
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häufig herausgefordert wird, kann man sich fast darauf verlassen, 
dass jede Woche jemand gewinnt. Die Wahrscheinlichkeit, dass un- 
ter 40 Millionen Tipps mindestens ein Sechser vorkommt, ist grö- 
ßer als 94 Prozent.” 


9 Glücklicherweise recht selten ist auch der so genannte plötzliche Kinds- 
tod. Noch seltener ist es, dass zwei Kinder in einer Familie am plötzlichen 
Kindstod versterben. Wenn diese Familie aber, wie die Lottospieler, eine 
von mehreren Millionen ist, dann ist dieses tragische Doppelereignis nicht 
mehr so unwahrscheinlich, wie es auf den ersten Blick scheint. In unserem 
Buch «Mit an Wahrscheinlichkeit grenzender Sicherheit» (Rowohlt Ta- 
schenbuch, 2005) beschreiben und analysieren wir einen entsprechenden 
authentischen Fall, in dem ein Gutachter durch sein falsches Verständnis 
von Wahrscheinlichkeit ein Gerichtsurteil maßgeblich in die offenbar fal- 
sche Richtung beeinflusst hat. 


Zufall oder Zustand 
Fehler erster Art 


Gepriesen sei der Zufall, 
er ist wenigstens nicht ungerecht. 
Ludwig Marcuse 


Im letzten Kapitel haben wir erfahren, wie wichtig und wie schwie- 
rig es ist, eine zufällige Häufung von einer gesetzmäßigen zu unter- 
scheiden. Diese Unterscheidung ist ein grundsätzliches Problem der 
Wissenschaft, spielt aber auch in anderen Bereichen eine wichtige 
Rolle, zum Beispiel bei Qualitätskontrollen in der Produktion oder 
bei der Beurteilung von Sportereignissen. In diesem Kapitel wollen 
wir Ihnen zeigen, wie in der exakten Wissenschaft versucht wird, 
gesetzmäßige von zufälligen Häufungen zu unterschieden. 


Mehr oder weniger Alkohol am Steuer 
Was heißt «statistisch signifikant»? 


Betrachten wir ein ausgedachtes Beispiel: Bei einer Verkehrskon- 
trolle überprüft die Polizei in der Nacht zum Sonntag in einer deut- 
schen Großstadt 600 Autofahrer. 84 müssen ins Röhrchen pusten 
und neun von ihnen zur Blutprobe. Sie haben über 0,8 Promille. 
Insgesamt haben also 9/600 = 0,015 oder 1,5 Prozent der Autofah- 
rer zu tief ins Glas geschaut. Nach einer aufwendigen Aufklärungs- 
kampagne stehen zwei Monate später bei einer erneuten Kontrolle 
im selben Stadtteil unter 400 kontrollierten Autofahrern nur noch 
zwei, das heifst 0,5 Prozent, unter Alkoholeinfluss. Diese Verringe- 
rung um den Faktor drei (1,5/0,5=3) wird als großer Erfolg gefei- 
ert. - Nur zwei Querdenker stören den Frieden und weisen darauf 
hin, dass das Ergebnis mit einer beträchtlichen Wahrscheinlichkeit 
von immerhin 14 Prozent auch dann rein zufällig zustande gekom- 
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men wäre, wenn die Kampagne überhaupt nichts gebracht hat. Da- 
mit fällt die Annahme, die zweite Kontrolle habe zu einem besseren 
Ergebnis geführt als die erste, wie ein Kartenhaus in sich zusam- 
men. Bei den Kontrollen ist ganz einfach der Zufall ins Spiel ge- 
kommen. Hätte die Grofßrazzia eine Stunde früher oder später be- 
gonnen, dann wären andere 400 Fahrzeuge kontrolliert worden. 
Und wenn zum Beispiel immer genau 1 Prozent aller Autofahrer in 
der Nacht zum Sonntag alkoholisiert ist, wird niemand erwarten, 
dass auch immer genau einer von 100 kontrollierten Fahrern zu 
viel getankt hat. Es können durchaus mal zwei oder mal keiner von 
100 sein. 


Eine heilige Kuh 
Die Bedeutung der Signifikanz 


Je planmäßiger ein Mensch vorgeht, 
desto wirksamer vermag ihn der Zufall zu treffen. 
Friedrich Dürrenmatt 


Im Allgemeinen werden die Ergebnisse zweier Alkoholkontrollen 
schon aufgrund zufälliger Schwankungen unterschiedlich ausfal- 
len. Je größer jedoch ein solcher Unterschied ist, desto unwahr- 
scheinlicher wird es, dass er auf Zufall beruht, und desto wahr- 
scheinlicher, dass die Ergebnisse zweier Kontrollen tatsächlich 
divergieren. Der so genannte Vierfeldertest erlaubt es uns, zu 
berechnen, wie wahrscheinlich die Ergebnisse sind, wenn gar kein 
wahrer Unterschied vorhanden ist. Diesen Vierfeldertest stellen wir 
im folgenden Abschnitt vor. In der wissenschaftlichen Literatur gilt 
ein Ergebnis im Allgemeinen genau dann als «signifikant», wenn 
die Wahrscheinlichkeit, dass die Ungleichheit rein zufällig ist ohne 
einen wahren Unterschied, höchstens 5 Prozent beträgt, was mit 
dem Ausdruck «p<0,05» angegeben wird. Dieses Fünfprozentni- 
veau hat keinen tieferen Sinn. Es ist eine willkürlich festgelegte, 
aber allgemein und international akzeptierte Konvention. 

In den letzten Jahrzehnten hat die «statistische Signifikanz » eine 
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herausragende Rolle in der Wissenschaft bekommen und sich zur 
heiligen Kuh entwickelt. So ist das Hauptkriterium für die An- 
nahme eines Manuskripts zur Veröffentlichung in einer Fachzeit- 
schrift in sehr vielen Disziplinen ein «signifikantes» Ergebnis, was 
eine wahre Jagd nach Signifikanzen ausgelöst hat. In zahlreichen 
Disziplinen ist es daher praktisch unmöglich, Forschung zu betrei- 
ben, ohne sich mit statistischer Signifikanz auseinander zu setzen. 
Allerdings können auch Ergebnisse, die diese Bedingung erfüllen, 
falsch sein. Die Toleranz dafür wird aber auf 5 Prozent begrenzt, 
das heißt, ein fünfprozentiges Risiko für falsch positive Ergebnisse 
gilt als akzeptabel. Diesen möglichen Irrtum bezeichnet man als 
den Fehler erster Art. Er entspricht dem Irrtum eines automati- 
schen Feuermelders, der Alarm schlägt, obwohl es nicht brennt. 

Die große Bedeutung, die signifikante Ergebnisse und damit die 
Signifikanztests durch diese Veröffentlichungspolitik gewonnen 
haben, verstellt zum Teil den Blick auf andere wichtige Aspekte, 
zum Beispiel, ob das statistisch signifikante Ergebnis überhaupt 
irgendeine Frage von Relevanz beantwortet. Die forcierte Signifi- 
kanzjagd bildet darüber hinaus die Grundlage völlig neuartiger Irr- 
tümer, von denen wir in den späteren Kapiteln noch ausführlich 
berichten werden. 


Herausforderung zum Schussfolgern 
Das Signifikanzniveau, der p-Wert und die Nullhypothese 


To be or not to be... 
William Shakespeare 


Stellen Sie sich vor, Sie wären ein Cowboy - ein richtiger Cowboy 
mit allem, was dazugehört: Hut, Stiefel, Pferd, dazu passende 
O-Beine, eine Hand voll Dollars und natürlich ein Schießeisen. Sie 
sitzen im Saloon, Ihr Pferd musste leider draußen bleiben. Es ist 
Sonntagnachmittag, der Westen ist wild, und Ihre Arbeitswoche 
war hart. Heute Morgen waren Sie in der Kirche, und jetzt wollen 
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Sie es sich gut gehen lassen und gleichzeitig nebenbei etwas dazu- 
verdienen. Sie gehen an den Spieltisch. 

Wir beide, Sie und ich, spielen gegeneinander ein ziemlich simp- 
les Spiel. Wir würfeln beide je einmal. Wer eine Sechs würfelt, be- 
kommt vom anderen 3 Dollar. Das ist kein Pappenstiel. Dafür 
müssen Sie einen ganzen Tag hart arbeiten. Das Spiel beginnt. Bei 
meinem ersten Wurf erziele ich eine Sechs. Sie haben eine Zwei und 
zahlen mir 3 Dollar. Wir würfeln ein zweites Mal: Sie eine Fünf 
und ich wieder eine Sechs. Unter innerlichem Murren zahlen Sie 
weitere 3 Dollar. Beim dritten Spiel würfle ich wieder eine Sechs. 
Vielleicht haben Sie auch eine Sechs und brauchen diesmal nichts 
zu bezahlen. Wir würfeln ein viertes Mal. Wieder habe ich eine 
Sechs. So könnte es immer weitergehen, aber möglicherweise ha- 
ben Sie bereits die Geduld verloren, weil ich dauernd Sechser 
werfe. 

Vielleicht würden Sie als höflicher Mensch irgendwann fragen 
wollen: «Darf ich Ihren Würfel mal untersuchen? Es macht mich 
doch etwas stutzig, dass Sie ...» Sie unterstellen mir also, dass ich 
schummele?! Eine derartige Beleidigung kann ich unmöglich hin- 
nehmen. Meine Cowboyehre verlangt, dass ich sofort den Colt 
ziehe. Wenn Sie also überzeugt sind, betrogen zu werden, dann 
sollten Sie nicht lange fragen, sondern lieber gleich schießen. 

Jetzt kommt die entscheidende Frage. Nach der wievielten Sechs 
glauben Sie nicht mehr an ein faires Spiel und schießen? Denken Sie 
an Ihre Cowboyehre und Ihre Dollars, aber auch daran, dass ich 
vielleicht schneller bin als Sie! Einfach das Spiel beenden ist im 
Wilden Westen übrigens keine gute Idee. Feiglinge haben hier keine 
Freunde. Aufhören geht nur, wenn der letzte Dollar verspielt ist. 
Also: Wann ziehen Sie? Bitte machen Sie ein Kreuz an entsprechen- 
der Stelle in der Abbildung 9. 

Vielleicht möchten Sie genauer wissen, wie häufig solche Sech- 
serhäufungen normalerweise bei einem fairen Würfel vorkommen. 
Mit einem regulären sechsseitigen Würfel erzielt man im Durch- 
schnitt in einem Sechstel der Würfe eine Sechs. Die Wahrschein- 
lichkeit für eine Sechs beträgt also 1/6 = 0,17 oder 17 Prozent. Es 
ist nichts Besonderes, wenn jemand eine Sechs würfelt. Die Sechsen 
kommen nicht regelmäßig bei jedem sechsten Wurf, sondern sie 
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Abbildung 9: Bitte kreuzen Sie an. Erläuterungen siehe Text. 


kommen irgendwann einmal. Manchmal würfelt man über lange 
Zeit überhaupt keine Sechs. Das haben die meisten schon beim 
Mensch-ärgere-dich-nicht-Spielen erlebt, wenn sie rausgeschmis- 
sen wurden und keine Spielfigur mehr auf dem Spielfeld hatten. 
Manchmal kommen aber auch gleich mehrere Sechsen kurz hinter- 
einander. Die Wahrscheinlichkeit, auf Anhieb! zwei Sechsen in 
Folge zu würfeln, beträgt 1/6 x 1/6 = 1/36=0,028 oder 2,8 Pro- 
zent. Die Wahrscheinlichkeit, auf Anhieb drei Sechsen in Folge zu 
werfen, beträgt nur noch 1/6 x 1/6 x 1/6 = 0,0046 oder 0,46 Pro- 
zent. Vier Sechsen in Folge sind mit 0,00077 oder 0,077 Prozent 
noch seltener. Die Wahrscheinlichkeit wird immer kleiner, und ir- 
gendwann ist sie so klein, dass man nicht mehr glauben mag, was 
man am Anfang in die Berechnung hineingesteckt hat, nämlich 
dass das Spiel fair ist und eine Sechs wirklich mit 17 Prozent Wahr- 
scheinlichkeit auftritt. 

In Abbildung 10 sehen Sie ein typisches Beispiel dafür, wann die 
Teilnehmer eines unserer Seminare den Colt gezogen haben, weil 
sie nicht mehr an ein faires Spiel glaubten. Nach zwei Sechsen hat 


1 Wohlgemerkt: «auf Anhieb». Dass man im Laufe eines Mensch-ärgere- 
dich-nicht-Spiels irgendwann einmal zwei Sechsen hintereinander würfelt, 
ist so gut wie sicher. 
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hier keiner geschossen. In anderen Seminaren kam das zwar vor, 
aber extrem selten. Nach vier Sechsen ist für die meisten das Maß 
voll. Die Wahrscheinlichkeit, mit einem normalen Würfel auf An- 
hieb vier Sechsen zu würfeln, beträgt 0,077 Prozent. Das bedeutet, 
unter 1296 Versuchen wird man im Mittel einmal vier Sechser auf 
Anhieb werfen. Unsere Erfahrung aus Vorlesungen und Seminaren 
zeigt, dass die meisten Menschen bei vier Sechsern in Folge nicht 
mehr an einen Zufall glauben und den Colt ziehen. 
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Abbildung 10: Ergebnis eines unserer Seminare. Nach vier Sechsen auf 
Anhieb in Folge glaubte die Mehrheit nicht mehr an ein faires Spiel und 
zog den Colt. 


Den Gedankengang, der unsere Teilnehmer (und vielleicht auch 
Sie) zum Schießen gebracht hat, fassen wir noch mal zusammen. 
Der Spieler geht von der Annahme aus, dass die Sechs bei seinem 
und meinem Würfel mit der gleichen Wahrscheinlichkeit von 17 
Prozent auftritt. Davon ausgehend lässt sich erahnen bzw. errech- 
nen, wie wahrscheinlich das beobachtete Ergebnis mehrerer Sech- 
ser hintereinander ist. Je mehr Sechser, desto unwahrscheinlicher 
ist das Ergebnis, und desto größer wird der Zweifel daran, dass die 
anfängliche Annahme richtig ist. Irgendwann, und das individuell 
verschieden, wird die Annahme als falsch erachtet und der Colt 
gezogen. 


Nach dem gleichen Muster wird bei einem statistischen Signifi- 
kanztest verfahren. Wir nehmen als Beispiel eine Studie, in der ein 
Medikament mit einem Placebo verglichen wird. Für den Signifi- 
kanztest geht man von der Annahme aus, dass Medikament und 
Placebo bei gleich vielen Patienten wirksam sind. Das tatsächlich 
beobachtete Ergebnis der Studie ist, dass mit dem Medikament 
z.B. 20 Prozent mehr Patienten erfolgreich behandelt wurden als 
mit Placebo. Die Wahrscheinlichkeit dieses Ergebnisses oder eines 
noch größeren Unterschieds zwischen Medikament und Placebo, 
unter der Bedingung, dass die anfängliche Annahme richtig ist, 
kann man ausrechnen (lassen). Diese Wahrscheinlichkeit hat den 
Namen «p-Wert». Je kleiner diese Wahrscheinlichkeit ist, desto 
größer ist dann der Zweifel an der anfänglichen Annahme. Irgend- 
wann wird die Annahme dann als falsch erachtet und der Colt ge- 
zogen beziehungsweise das Medikament als tatsächlich wirksam 
akzeptiert. 


Im Saloon darf sich jeder selbst überlegen, wann er schieftt. In der 
Wissenschaft ist das durch das Signifikanzniveau von 5 Prozent ge- 
regelt. Wenn der p-Wert kleiner als 5 Prozent ist, darf man das Er- 
gebnis «statistisch signifikant» nennen und die anfängliche An- 
nahme verwerfen. Es ist kaum zu glauben, aber den Cowboys der 
so genannten exakten Wissenschaft genügt ein Signifikanzniveau 
von fünf Prozent! Im akademischen Saloon wird nach der zweiten 
Sechs geschossen! 


In der Statistik heißen unsere anfänglichen Annahmen «Nullhypo- 
these». In den obigen Beispielen lautet die Nullhypothese: «Die 
Wahrscheinlichkeiten, mit Ihrem oder mit meinem Würfel eine 
Sechs zu werfen, unterscheiden sich richt (daher der Name Null- 
hypothese).» beziehungsweise «Die Wahrscheinlichkeiten mit dem 
Medikament oder mit dem Placebo einen Patienten erfolgreich zu 
behandeln, unterscheiden sich nicht.» Der Statistiker berechnet 
den p-Wert, indem er voraussetzt, dass die Nullhypothese richtig 
ist. Ist der p-Wert kleiner als 5 Prozent, wird die Nullhypothese ver- 
worfen. 

Dies ist die offizielle Denkart eines statistischen Signifikanztests. 


Das Tragische ist, dass die meisten Wissenschaftler glauben, damit 
sei bewiesen, dass das getestete Medikament besser ist als das Pla- 
cebo. 

Wenn man die Nullhypothese verwirft, sagt der Signifikanztest 
nicht, was man stattdessen glauben sollte. Ist der Gegner geschickt 
im Würfeln? Hat er psychokinetische Begabung? Ist der Würfel ge- 
zinkt? Hat das Medikament in der Studie statistisch signifikant 
mehr Patienten geheilt, weil es tatsächlich (und in Zukunft auch 
bei anderen Patienten) wirksamer ist? Liegt es daran, dass die Pa- 
tientengruppen von vornherein unterschiedlich waren? Wurden 
gar Patienten mit unerwünschtem Therapieausgang ausgeschlos- 
sen? Über die Ursache des Ergebnisses erfahren wir nichts. 
Die berechneten Wahrscheinlichkeiten der Ergebnisse (p-Wert) 
sagen auch nichts darüber aus, mit welcher Wahrscheinlichkeit die 
Nullhypothese richtig oder falsch ist. Eigentlich sagt ein Signifi- 
kanztest nur sehr wenig aus. Darauf gehen wir später am Ende des 
Buches und noch viel intensiver in unserem Buch «Der Schein der 
Weisen» ein. Da Signifikanztests in der Wissenschaft eine große 
Rolle spielen, werden wir uns im Folgenden aber noch damit 
befassen. 


Quadratisch, praktisch, gut 
Der einfache und nützliche Vierfeldertest 


Mit dem Vierfeldertest können Ergebnisse schnell und einfach auf 
Signifikanz überprüft werden. Wir möchten Sie daher ermutigen, 
die Berechnungen in diesem Abschnitt nachzuvollziehen. Sollte es 
Ihnen jedoch zu mathematisch werden, dann lassen Sie diesen und 
die folgenden Abschnitte bis zum Ende des Kapitels einfach aus. 
Zum Verständnis der weiteren Darstellung ist der Vierfeldertest 
zwar sehr nützlich, aber nicht unbedingt notwendig. 

Mit einem Signifikanztest können wir abschätzen, mit welcher 
Wahrscheinlichkeit ein beobachteter Unterschied zufällig entsteht, 
ohne auf einer Gesetzmäßigkeit zu beruhen. Dies ist zwar recht 
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salopp ausgedrückt, soll aber erst einmal als Annäherung genügen. 
Später werden wir noch eine genauere Definition vorstellen. Ein oft 
auftretendes Problem ist der Vergleich von Häufigkeiten, wie sie im 
obigen Beispiel genannt wurden. Sind 0,5 Prozent alkoholisierte 
Autofahrer tatsächlich weniger als 1,5 Prozent, oder handelt es sich 
um zufällige Schwankungen? Der dazugehörige Signifikanztest ist 
sehr einfach, nicht hingegen die Begründung, weshalb der Test so 
geht und nicht anders. Deshalb ersparen wir sie Ihnen und uns und 
verweisen auf Lehrbücher der Statistik. Den Test führen wir als 
Kochrezept vor und benutzen dazu das Beispiel der alkoholisierten 
Autofahrer aus dem letzten Abschnitt. Hierfür erstellen wir zu- 
nächst folgende Tabelle: 


Tabelle 8: Vierfeldertest für die Alkoholkontrolle 


| Alkoholisiert Nüchtern | Summe 


59 
398 


Erste Kontrolle 
Zweite Kontrolle 


Insgesamt gab es bei den beiden Kontrollen elf alkoholisierte Au- 
tofahrer, bei der ersten Kontrolle neun und bei der zweiten zwei. 
Da bei der ersten Kontrolle 600 und bei der zweiten 400 Autofah- 
rer untersucht wurden, waren von den 1000 insgesamt kontrollier- 
ten Autofahrern 989 nüchtern. 

Die allgemeine Version des Vierfeldertests zeigt Tabelle 9. 


53 


Tabelle 9: Schema des Vierfeldertests 


Erfolg Misserfolg 
Ei Mı E+M,=N, 


Probe A 


Probe B M, Eg+M;=N, 


E,+ER 2 M,+Mg E+EsR+M, +M,=N 


Die Gesamtzahl der in den Proben A und B enthaltenen Probanden ist 
N=E,+Eg+M, +Mg 


Zunächst muss eine Prüfgröße nach der Formel 


N-1)<(E,xM,.-E,xM,) 
Prüfgröße = Se IE 5 EM) 
(E, + EB) x (M, + M,)x (EL +M,)x (Ey, + M,) 


berechnet werden. Diese Formel darf nur angewandt werden, wenn in beiden 
Proben (zum Beispiel Patientengruppen) jeweils mindestens sechs Fälle enthal- 
ten sind, also N\26 und N,26 (Sachs 1978). 


Der Name «Vierfeldertest» bezieht sich auf die vier Felder, in de- 
nen die Ergebnisse E,, E,, M, und M, eingetragen sind, in unserem 
Beispiel die 9, die 2, die 591 und die 398. Als Nächstes werden die 
Zahlen aus der Tabelle in die Formel für den Vierfeldertest einge- 
setzt, der in Tabelle 9 schematisch dargestellt ist: 


Prüfgröße = (1000 - 1)x (9x 398 - 2x 591)? 

11 x 989 x 600 x 400 
Über dem Bruchstrich trägt man zunächst die Gesamtzahl der kon- 
trollierten Autos (im Beispiel die 1000) minus eins ein. Das nächste 
Glied entsteht aus den einzelnen Zahlen der «vier Felder», die 
kreuzweise multipliziert, anschließend voneinander subtrahiert 
und dann noch als Ganzes quadriert werden. Im Nenner stehen 
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einfach die am Rand der vier Felder vermerkten Summen aller Au- 
tofahrer, die alkoholisiert (11) oder nüchtern (989) waren bezie- 
hungsweise zur ersten oder zweiten Kontrolle gehörten (600 und 
400). Weiterrechnen ergibt: 


ER 999 x (3582 - 1182)? _ 999 x 5760000 _ 
Prüfgröße = Ze I 2,0 2 =2,2 
2610960000 2610960000 


Jetzt müssen wir nur noch feststellen, ob die Prüfgröße größer oder 
gleich 3,84 ist, denn genau dann darf man das Ergebnis «statistisch 
signifikant» nennen. Das liest sich wie Voodoozauber, aber diese 
krumme Zahl ist in der Statistik gut begründet. Da die Prüfgröße 
in unserem Beispiel 2,2 beträgt und somit kleiner als 3,84 ist, ist 
das Ergebnis nicht statistisch signifikant. Die folgende Tabelle 
zeigt, dass die Wahrscheinlichkeit, die zur Prüfgröße = 2,2 gehört, 
größer als 10 Prozent ist. Genauer geht es mit der Formel, der Ta- 
belle oder der Grafik im Anhang IV. Sie liefern einen p-Wert von 
etwa 0,14, entsprechend 14 Prozent. Das bedeutet: Wenn der 
wahre Anteil der Alkoholsünder tatsächlich unverändert geblieben 
ist, dann tritt der beobachtete Unterschied (oder ein größerer) rein 
zufällig mit einer Wahrscheinlichkeit von 14 Prozent auf. 


Tabelle 10: Prüfgröße und dazugehörige Wahrscheinlichkeiten 


Prüfgröße Wahrscheinlichkeit 
2:71 10,0% 
3,84 5,0% 
6,64 1,0% 

10,83 0,1% 
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Neue Besen kehren gut! - Oder? 
Ein Beispiel für den Vierfeldertest aus der Medizin 


Betrachten wir jetzt ein Beispiel aus der Medizin. Ein Ärzteteam 
hat eine neue Behandlungsmethode für eine bestimmte Erkran- 
kung entwickelt, wendet sie bei dreißig Patienten an und vergleicht 
den Erfolg mit dem einer Standardtherapie. Mit der konventionel- 
len Behandlung wurden elf von dreißig Patienten (37 Prozent) ge- 
heilt, mit der neuen Methode immerhin neunzehn von dreißig (63 
Prozent). Kann dieses Ergebnis zufällig zustande gekommen sein, 
obwohl eigentlich beide Therapien gleich gut sind? Dazu befragen 
wir wieder den Vierfeldertest. 


Tabelle 11: Vierfeldertest bei der Entwicklung eines neuen Medikaments 


Erfolg Misserfolg 
Standardbehandlung 11 19 30 
Neue Behandlung 19 11 
Summe 
Prüfgröße = (60 -1)x (11x 11-19 x 19)? a 59 x 57600 = 3398400 =42 


30 x 30 x 30 x 30 810000 810000 


Da das Ergebnis größer als 3,84 ist, sind die beiden Behandlungen 
statistisch signifikant verschieden. Tabelle 10 zeigt, dass die Wahr- 
scheinlichkeit für einen Fehler erster Art zwischen 1 und 5 Prozent 
beträgt. Der Tabelle 43 im Anhang IV (Seite 294) entnehmen wir, 
dass der Prüfgröße 4,2 ein Wahrscheinlichkeitswert von 0,0404 oder 
4,04 Prozent entspricht. Dies ist die Wahrscheinlichkeit dafür, den 
beobachteten oder einen noch größeren Unterschied zu messen, 
wenn sich die beiden Behandlungen tatsächlich gar nicht unterschei- 
den. Mit dieser Information sind wir zwar schon ein Stück weiter, 
aber ob die neue Therapie wirklich besser ist, wissen wir damit noch 
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nicht. Diese Ungewissheit taucht in wissenschaftlichen Untersu- 
chungen aller Art auf. Um mit ihr leben zu können, gibt es, wie er- 
wähnt, unter Wissenschaftlern eine Vereinbarung, die besagt, dass 
ein Ergebnis als «statistisch signifikant» bezeichnet wird, wenn die 
Wahrscheinlichkeit für einen Zufallsbefund kleiner oder gleich 5 
Prozent ist. Dain unserem obigen Beispiel die Wahrscheinlichkeit für 
einen Zufallsbefund weniger als 5 Prozent beträgt, handelt es sich 
nach dieser üblichen Auffassung um ein signifikantes Ergebnis. 


Unsinn mit Niveau 
Die Konvention eines fünfprozentigen Signifikanzniveaus 


Wer über gewisse Dinge den Verstand nicht verliert, 
der hat keinen zu verlieren. 
Gotthold Ephraim Lessing 


Doktor Sorglos war Abonnent und treuer Leser des International 
Fleamarket, einer Flohmarkt-Zeitschrift mit Niveau und brandhei- 
ßen Sonderangeboten. Über die Bestellabteilung hat er sich einen 
Regenschirm gekauft. Hochmodern, billig und mit Qualitäts- 
garantie: Im Bedarfsfall lässt sich der Schirm mit 95-prozentiger 
Sicherheit öffnen. Nur in 5 Prozent der Fälle steht Doktor Sorglos 
im Regen. Was soll’s! Der Schirm ist wirklich einmalig preiswert 
und das fünfprozentige Risiko wert. 

Für einen befreundeten Patienten hatte Doktor Sorglos gleich 
noch einen Schirm mitbestellt. Ebenfalls todschick, preisgünstig 
und genauso sicher wie sein Regenschirm. Er geht mit 95-prozen- 
tiger Sicherheit auf, und nur in 5 Prozent der Fälle macht der Patient 
von Doktor Sorglos einen Abgang - dann allerdings für immer 
(siehe Abbildung 12). Man sollte sich nicht auf alles mit der gleichen 
Wahrscheinlichkeit einlassen. So sieht es jedenfalls der um seine Ge- 
sundheit besorgte Patient. Das Fünfprozentniveau ist eine Konven- 
tion. Es wurde willkürlich festgelegt und ist nicht immer sinnvoll, 
wie Doktor Sorglos gerade an sich und seinem Patienten gezeigt hat. 
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Abbildung 11: Doktor Sorglos nach dem Kauf eines nicht ganz zuverläs- 
sigen Regenschirms 


Wenn die Wahrscheinlichkeit, den in einer Studie beobachteten 
oder einen noch extremeren Unterschied zwischen zwei Behandlun- 
gen zu erhalten, kleiner als 5 Prozent ist, dann gilt der Unterschied 
als «statistisch signifikant» und erhält das Gütesiegel «p < 0,05». 
Diese Wahrscheinlichkeit trägt in vielen Statistikbüchern den irre- 
führenden Namen «Irrtumswahrscheinlichkeit » ?. Treffender wäre 
nach unserer Auffassung ein anderer Name, wie beispielsweise 


2 Die Wahrscheinlichkeit für einen Irrtum kann man nicht berechnen, 
weil hierzu entscheidende Informationen fehlen (vgl. Cohen (1994), der 
angibt, die Gedanken von Pollard und Richardson (1987) zu haben). Mit 
dieser Thematik beschäftigt sich unser Buch «Der Schein der Weisen». 


«Bedingte Zufallswahrscheinlichkeit», denn bei seiner Berechung 
wird vorausgesetzt, dass die beiden Behandlungen gleichermaßen 
wirksam sind. 

Das Signifikanzniveau sollte vernünftigerweise davon abhängen, 
welche Folgen eine etwaige Fehlinterpretation der Ergebnisse nach 
sich zieht. Es ist doch nicht dasselbe, ob man beim Vergleich zweier 
Hustensäfte oder zweier Krebstherapien einen Fehler macht. 


Abbildung 12: Der Patient bei Verwendung des von Doktor Sorglos er- 
standenen ziemlich sicheren Fallschirms 
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Ein konstantes Signifikanzniveau ist unsinnig. Es gibt keine ver- 
nünftige Begründung dafür. Das Festhalten an den «magischen 5 
Prozent» ist einfach nur bequem, und die Forscher haben sich an 
dieses Windei offenbar gut gewöhnt. Nur wenige denken jemals 
darüber nach. 

Denken Sie gerade darüber nach, wie wahrscheinlich es ist, dass 
im letzten Abschnitt die neue Behandlung tatsächlich besser ist als 
die Standardbehandlung? - Diese Frage ist sehr wichtig, und die 
richtige Antwort ist für viele überraschend. Wir haben ihr ein 
Kapitel am Ende des Buches gewidmet. 


Mit der Schrotflinte 
in den Porzellanladen 
Mehrfachtests 


In diesem Kapitel werden Sie erfahren, wie man zu belanglosen 
«statistisch signifikanten» Zufallsergebnissen kommt, wie eine 
Unzahl von Zufallstreffern die Wissenschaft bis zum Absaufen ver- 
wässert und was man dagegen unternehmen kann. 


Die unerträgliche Leichtigkeit 
der Signifikanz 
Das Prinzip von Mehrfachtests 


Die Freude am Erfolg der im letzten Kapitel geschilderten Anti- 
Alkohol-am-Steuer-Kampagne währt nicht lange. Die Aussage 
der beiden Wissenschaftler, die nachgewiesen haben, dass das Er- 
gebnis statistisch nicht signifikant ist, bekommt ein relativ großes 
Presseecho, da der für die Aktion verantwortliche amtierende 
Verkehrsdezernent ohnehin schon wegen verschiedener Skandäl- 
chen im Kreuzfeuer der Kritik steht. Es folgen unangenehme Pres- 
semeldungen, der Sinn der Kampagne wird in Frage gestellt. Eine 
neue Untersuchung soll Klarheit schaffen und den Erfolg überprü- 
fen. 

Daraufhin werden aber nicht wieder nur einmalige Kontrollen 
durchgeführt, sondern wöchentlich jeweils 500 Autofahrer über- 
prüft. Bei der ersten Kontrolle gehen der Polizei fünf alkoholisierte 
Fahrer ins Netz, bei der zweiten drei, bei der dritten sieben, dann 
vier, dann ist es endlich mal nur einer. So, den nehmen wir! Weg 
mit den anderen! Pressemitteilung: «Bei der letzten Verkehrskon- 
trolle war nur einer von 500 Autofahrern (0,2 Prozent) alkoholi- 
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siert. Dies ist ein statistisch signifikant! geringerer Anteil an Alko- 
holsündern als vor drei Monaten, als es noch neun von 600 waren 
(1,5 Prozent).» Die nörgelnden Statistiker sind ausgetrickst. Kein 
Zweifel an der statistischen Signifikanz des Ergebnisses! Aber die 
Vorgehensweise stinkt zum Himmel. Es ist offensichtlich unfair, so 
lange zu kontrollieren, bis es zufällig zu einem genehmen Ergebnis 
kommt, das sich pressewirksam einsetzen lässt. 

Man kann mit sehr einfachen Mitteln dafür sorgen, dass bei 
einer Untersuchung immer irgendetwas statistisch Signifikantes 
herauskommt. Legen Sie bitte für ein erklärendes Experiment acht 
Würfel bereit. Sie beginnen mit nur einem Würfel. Für jede Sechs 
wird in der ersten Zeile von Tabelle 12 ein Kreuz eingezeichnet, an- 
dernfalls ein Kreis. Nach zehn Würfen zählen Sie die Kreuze zu- 
sammen und schreiben das Ergebnis in das Feld ganz rechts. 

Jetzt wiederholen Sie das Spiel mit zwei Würfeln. In der zweiten 
Zeile tragen Sie ein Kreuz ein, wenn mindestens eine Sechs gefallen 
ist. Auch bei zwei Sechsen notieren Sie nur ein Kreuz. Erzielen Sie 
mit keinem der beiden Würfel eine Sechs, kommt wieder ein Kreis 
ins Kästchen. Nach zehn Würfen mit beiden Würfeln zählen Sie 
wieder die Kreuze zusammen und tragen das Ergebnis in die rechte 
Spalte ein. Das Ganze wiederholen Sie noch mit vier und mit acht 
Würfeln. 

Je mehr Würfel wir verwenden, umso wahrscheinlicher ist es, 
dass mindestens eine Sechs fällt. Das wird wohl kaum jemanden 
überrascht haben. Mit dieser wirklich nicht neuen Erkenntnis wer- 
den Sie nun zu einem Glücksspiel eingeladen, bei dem Sie jedes 
Mal, wenn eine Sechs dabei ist, 100 Euro gewinnen. Die Glücksfee 
stellt Sie vor die Wahl, ob Sie mit einem, zwei, vier oder acht Wür- 
feln spielen möchten. Bei acht Würfeln gehört Ihnen der Hunderter 


1 Mit dem Vierfeldertest erhalten wir eine Prüfgröße von 5,11 für den Ver- 
gleich von «1 von 500» mit «9 von 600». Das Ergebnis ist also statistisch 
signifikant. Aus der Tabelle 43 im Anhang IV entnehmen wir, dass der 
Prüfgröße 5,1 ein Wahrscheinlichkeitswert von etwa 0,024 = 2,4 Prozent 
entspricht. Dies ist die Wahrscheinlichkeit dafür, dass die eine Fahrzeug- 
kontrolle zufällig so unterschiedlich ausgefallen ist, obwohl die Aufklä- 
rungskampagne wirkungslos war. 
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Tabelle 12: Spiel mit unterschiedlicher Anzahl von Würfeln. In die Käst- 
chen wird ein Kreuz eingetragen, wenn mindestens eine Sechs gewürfelt 
wurde. 


Kreuz oder Kreis: Anzahl der Kreuze 


Ein Würfel: LE EITT TI [ 
Zwei Würfel: 


Vier Würfel: OOOIIIITTTT 
Acht Würfel: 


ee 


mit 77, bei einem Würfel nur mit 17 Prozent Sicherheit.” Dumme 
Frage, was Sie wohl tun werden. Dieses Spiel ist so banal, dass es 
noch nicht mal das Fernsehen bringt. 

Es ist aber nicht zu banal für die Forschung. Das allgemein ak- 
zeptierte Signifikanzniveau von 5 Prozent verleiht der Wissen- 
schaft Glücksspielcharakter, denn damit wird beispielsweise hinge- 
nommen, dass ein tatsächlich wirkungsloses Medikament mit einer 
Wahrscheinlichkeit von 5 Prozent zufällig statistisch signifikante 
Wirkung zeigt. In der Forschung wird im Prinzip mit einem zwan- 
zigseitigen Würfel gespielt. (Diese sind übrigens in jedem guten 
Spielwarengeschäft erhältlich.) Jeder geworfenen 20 entspricht 
eine wissenschaftliche Veröffentlichung, deren Ergebnis ein Zu- 
fallsprodukt ist. Und es kommt noch schlimmer, denn auch die 
Wissenschaftler haben mittlerweile herausgefunden, dass man ja 


2 Die Wahrscheinlichkeit, mit einem Würfel eine Sechs zu würfeln, ist 1/6, 
also rund 17 Prozent. Die Wahrscheinlichkeit, mit einem Würfel keine 
Sechs zu würfeln, beträgt 5/6, und mit zwei Würfeln keine Sechs zu wür- 
feln, 5/6 x 5/6 = 25/36 = etwa 69 Prozent. Das heißt, in 69 Prozent der 
Würfe hat man keinen und in 31 Prozent einen oder zwei Sechser. Die 
Wahrscheinlichkeit für mindestens eine Sechs mit vier Würfeln beträgt 52 
und mit acht 77 Prozent. Wir können also für unsere Tabelle folgende 
durchschnittliche Anzahl von Kreuzen erwarten: bei einem Würfel 1,7, bei 
zwei 3,1, bei vier 5,2 und bei acht 7,7. 
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mit mehreren Würfeln gleichzeitig spielen kann. Dies wollen wir im 
folgenden Abschnitt ausführlicher beschreiben und mit Beispielen 
aus der Fachliteratur belegen. 


«Ergebnisse» wie Sand am Meer 
Die Problematik von Mehrfachtests 


Wenn die Sonne der Kultur niedrig steht, 
werfen selbst Zwerge einen Schatten. 
Karl Kraus 


Doktor Sorglos demonstriert uns in Abbildung 13, wie gefährlich 
es ist, sich auf mehrere Wahrscheinlichkeiten gleichzeitig zu verlas- 
sen. Dazu hat er sich aus vielen kleinen Stücken ein langes Bergstei- 
gerseil zusammengeknotet. Die einzelnen Knoten sind ziemlich si- 
cher, denn die Wahrscheinlichkeit, dass einer hält, beträgt jeweils 
95 Prozent. Allerdings ist die Wahrscheinlichkeit, dass zwei Kno- 
ten gleichzeitig halten, geringer, nämlich nur noch etwa 90 Pro- 
zent?, und bei zwanzig Knoten verringert sie sich auf 36 Prozent*. 
Die Wahrscheinlichkeit, mit einem zwanzigknotigen Seil abzustür- 
zen, ist somit 100 — 36 = 64 Prozent. Es ist zu befürchten, dass 
Doktor Sorglos bei einer seiner nächsten Klettertouren fliegen 
lernen muss. 

Bei klinischen Studien hängt die Wahrscheinlichkeit, abzustür- 
zen, das heißt zufallsbedingt «signifikante » Ergebnisse zu erhalten, 
von der Anzahl der untersuchten Parameter ab. Ein Parameter ist 
etwas, was man messen oder feststellen kann. In der Medizin 
gehören dazu beispielsweise das Alter und das Geschlecht des 
Patienten. Bei Krebserkrankungen etwa kommen die Tumorart, das 


3 0,95 x 0,95 = 0,9025 oder 90,25 Prozent. 

4 (0,95)° = 0,36 oder 36 Prozent. 

5 Die Wahrscheinlichkeit dafür, dass n Knoten halten, ist (1 p)". Die Ge- 
samtabsturzwahrscheinlichkeit P mit solch einem Seil ist also gegeben 
durchP=1-(1-p)". 
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Tumorstadium, die Ausbreitung auf andere Organe, der Allgemein- 
zustand des Patienten usw. hinzu. Wer fleißig ist und sich viele 
Notizen macht, kann so auf eine beachtliche Anzahl von Para- 
metern kommen. Mathematisch verhält es sich wie beim letzten 
Würfelspiel oder beim Kletterseil des Doktor Sorglos. In einer Stu- 
die, in der mehrere unabhängige Parameter getestet werden, gilt für 
jeden einzelnen Parameter das Fünfprozentrisiko einer zufälligen 
Signifikanz. Die Wahrscheinlichkeit, dass von zwei getesteten 
Parametern (= zwei Knoten) mindestens einer ein falsches Ergeb- 
nis liefert (einer von beiden Knoten hält nicht), steigt auf annähernd 
10 Prozent.° 

Wer vermeiden möchte, dass das Risiko eines falsch positiven 
Ergebnisses für die gesamte Studie über 5 Prozent hinausgeht, 
muss das Signifikanzniveau für die einzelnen Parameter an die Ge- 
samtzahl der durchgeführten Tests anpassen. Für das Bergsteiger- 
seil bedeutet dies, dass man die Versagerwahrscheinlichkeit der 
einzelnen Knoten deutlich verringern muss, um die Absturzwahr- 
scheinlichkeit des verknoteten Seils auf ein akzeptables Maß zu re- 
duzieren. Das kann man ganz exakt berechnen ’ oder mit einer ein- 
fachen Formel (nach Bonferroni) abschätzen: 


Wahrscheinlichkeit, dass 
ein einzelner Knoten = 
sich löst 


Absturzwahrscheinlichkeit 
Anzahl der Knoten 


6 Exakt ergibt sich: 1- (1 - 0,05)? =1- (0,95)°= 1 - 0,9025 = 0,0975 be- 
ziehungsweise 9,75 Prozent. Allgemein gilt bei Untersuchung von n unab- 
hängigen Parametern beziehungsweise Durchführung von n statistischen 
Tests für das kumulative Risiko: 1 - (0,95)". Voraussetzung für die Anwen- 
dung dieses Verfahrens ist allerdings, dass die untersuchten Parameter von- 
einander unabhängig sind. Für abhängige Parameter gibt es weniger kon- 
servative, aber auch weniger einfache Korrekturverfahren. Weiterführende 
Literatur: Holm 1979, Hochberg 1988 sowie Parker und Rothenberg 
1988. 

7 p=1-(1- 0,05)", 
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Abbildung 13: Doktor Sorglos bei Verwendung eines in der internationa- 
len Fachliteratur empfohlenen Kletterseils mit zahlreichen ziemlich siche- 
ren Knoten. Dies ist das letzte Bild von Doktor Sorglos. Er ist der naiven 
Vorstellung zum Opfer gefallen, man könne die Sicherheitskriterien der 
Wissenschaft auf das Bergsteigen anwenden. 
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Wenn die Gesamtabsturzwahrscheinlichkeit nicht größer als 5 Pro- 
zent sein soll, dann darf bei einem zwanzigknotigen Seil die Wahr- 
scheinlichkeit, dass ein einzelner Knoten sich löst, nicht größer als 
5 Prozent / 20 = 0,25 Prozent sein. Entsprechendes gilt natürlich 
für die Anzahl der untersuchten Parameter n in einer klinischen 
Studie und die Anforderungen an das angepasste Sicherheitsniveau 
p;. Ganz analog lautet die Formel: 


p;=5 Prozent/n 


Beispiel: Wenn die Gesamtwahrscheinlichkeit für Zufallsbefunde 
in einer Studie mit zehn Parametern nicht größer als 5 Prozent sein 
soll, dann muss man das einzelne Sicherheitsniveau auf 5 Prozent / 
10 = 0,5 Prozent reduzieren. 

Nichtkorrigierte Mehrfachtests haben verheerende Folgen für 
die klinische Forschung und deren Konsequenzen. Die hundert 
Quadrate in Abbildung 14A repräsentieren hundert Studien, die je- 
weils einen einzigen Parameter untersucht und getestet haben. Die 
schwarzen Quadrate stellen die Studien dar, in denen zufallsbe- 
dingt ein signifikantes Ergebnis gefunden wurde. Im Durchschnitt 
sind das fünf von hundert. 

Untersuchungen mit einem Parameter sind außerordentlich sel- 
ten. Abbildung 14B zeigt daher ein realistischeres Beispiel. Jedes 
Quadrat repräsentiert eine Studie, in der jeweils sechzehn Parame- 
ter (kleine Quadrate) analysiert wurden. Die schwarzen Quadrate 
stehen wieder für die falsch positiven Ergebnisse. Obwohl der An- 
teil der zufallsbedingt signifikanten Parameter wieder 5 Prozent 
beträgt (13/256), sind bei neun der sechzehn Studien (56 Prozent) 
falsch positive Resultate zu verzeichnen.® Abbildung 14C zeigt 
vier große Quadrate mit jeweils 81 kleinen Quadraten. Sie reprä- 
sentieren vier Studien, in denen jeweils 81 unabhängige Parame- 
ter untersucht wurden. Insgesamt ergaben sich sechzehn zufällig 
«signifikante» Befunde, was wiederum einer Rate von 5 Prozent 


8 Die Verteilung der schwarzen Kästchen ist rein zufällig und entspricht 
der Poisson-Statistik, wie wir sie im Kapitel «Wir backen uns eine Schlag- 
zeile» vorgestellt haben. 
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A: Hundert Studien, in denen 
jeweils nur ein Parameter getestet 
wurde. 


B: Sechzehn Studien mit je 
sechzehn Parametern. 


C: Vier Studien mit je 81 
Parametern. 
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Abbildung 14: Das Risiko, auf zufällig «signifikante» Ergebnisse zu sto- 
Ben, nimmt mit wachsender Anzahl untersuchter Parameter (kleine Qua- 
drate) zu. Die ausgefüllten kleinen Quadrate repräsentieren die Zufallsbe- 


funde (p < 0,05). 


entspricht. Bei so vielen Parametern ist die Wahrscheinlichkeit, ein 
falsch positives Ergebnis zu erhalten, sehr groß; sie beträgt 98,4 
Prozent”. 

Aber es kommt noch schlimmer. In zahlreichen klinischen Stu- 
dien werden nicht nur verschiedene Parameter untersucht, sondern 
auch verschiedene Endpunkte!® beziehungsweise Subgruppen von 
Patienten. In diesem Fall wird die Anzahl der Parameter mit der 
entsprechenden Anzahl von Endpunkten beziehungsweise Sub- 
gruppen multipliziert. Die Anzahl der Tests wird verdoppelt, wenn 
man zwei Subgruppen, etwa Männer und Frauen, getrennt analy- 
siert. Unterteilt man die Patienten in verschiedene Altersgruppen, 
zum Beispiel «bis 18», «18 bis 65 » und «über 65 », und untersucht 
diese getrennt, so hat man drei Subgruppen gebildet und verdrei- 
facht damit die Anzahl der Tests. 

Unfair und problematisch ist es, wenn bei der Analyse der Daten 
einer klinischen Studie zwar zahlreiche Parameter, Endpunkte und 
Subgruppen getestet, aber in der Veröffentlichung lediglich einige 
wenige — vorzugsweise «signifikante » - angegeben werden (Abbil- 
dung 15). Dadurch wird es unmöglich, die Aussagekraft der Arbeit 
einzuschätzen. Im Grunde ist diese auf den ersten Blick harmlos er- 
scheinende Vorgehensweise betrügerisch. Häufig kann aber dem 
Text einer solchen Arbeit indirekt entnommen werden, dass mehr 
untersucht als publiziert wurde. 

Es ist erstaunlich, wie wenige der Autoren klinischer Studien 
diese altbekannten methodischen Grundregeln beachten. Darauf 
angesprochen, reagieren die Kollegen häufig mit der Bemerkung: 
«Wer fleißig ist und viele Parameter untersucht, der wird eben auch 
mit mehr signifikanten Ergebnissen belohnt.» Das klingt beste- 
chend logisch. Anstelle einer Erwiderung erinnern wir an das ein- 
gangs durchgeführte Würfelspiel und daran, dass jemand mit vie- 
len Knoten im Kletterseil wahrscheinlich abstürzt. Würde man den 


9 1-0,95°' = 0,984. 
10 Endpunkte sind messbare Größen, mit denen die Wirkung einer Be- 
handlung quantifiziert werden kann, wie zum Beispiel die Überlebenszeit 
der Patienten, die Heilungsrate, die Häufigkeit von Nebenwirkungen, die 
Dauer der Beschwerdefreiheit usw. 
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Abbildung 15: Das in der aktuellen klinischen Literatur leider weit verbrei- 
tete «Schneid und flick»-Verfahren 


zurzeit in der medizinischen Wissenschaft verbreiteten Missbrauch 
statistischer Verfahren auf unübliche Parameter, zum Beispiel as- 
trologische Konstellationen, anwenden, so könnte man leicht einen 
signifikanten Einfluss der Planetenkonstellation auf den Ausgang 
einer Krebsbehandlung nachweisen. Umgekehrt ist zu befürchten, 
dass viele «Erkenntnisse» der modernen Medizin wissenschaftlich 
nicht fundierter sind als die der Astrologie. 

Gunter Sachs hat unseren schlechten Scherz in die Tat umgesetzt. 
In seinem Buch Die Akte Astrologie führt er «... Schritt für Schritt 
den Beweis: Astrologie ist kein Mythos. Sie beruht auf messbaren 
Grundlagen. Tabellen und Grafiken ermöglichen einen schnellen 
Überblick über alle Ergebnisse ... Führende Wissenschaftler des 
Statistischen Bundesamtes bestätigen in einem unabhängigen Gut- 
achten die Richtigkeit der Untersuchungen.» Man beachte: Mit 
demselben statistischen Hokuspokus, aus dem viele medizinische 
Forscher sich ein wissenschaftliches Mäntelchen stricken, kann 
man die Astrologie zur Wissenschaft erheben. Gunter Sachs bringt 
diese Absurdität gekonnt auf den Punkt und stellt damit, bewusst 
oder unbewusst, der heutigen Wissenschaft ein peinliches Armuts- 
zeugnis aus. 
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Von Januar 1993 bis August 1994 haben wir die in unserem frühe- 
ren Fachgebiet führende europäische Zeitschrift Radiotherapy and 
Oncology im Hinblick auf Mehrfachtests untersucht. Etwa ein 
Drittel (!) der dort publizierten klinischen Arbeiten enthielt statis- 
tisch nicht haltbare Aussagen. Erfreulicherweise veröffentlichte 
das Blatt unseren dazu verfassten kritischen Artikel umgehend 
(Beck-Bornholdt und Dubben 1994). Drei Jahre später analysier- 
ten wir dieselbe Zeitschrift nochmals auf ebendieses Problem hin 
und stellten fest, dass sich nichts geändert hatte. Der Anteil der un- 
korrekten Arbeiten war sogar geringfügig gestiegen. Wieder ver- 
fassten wir einen Artikel, in dem wir auf insgesamt 38 unhaltbare 
Aussagen hinwiesen. Der neue Herausgeber von Radiotherapy and 
Oncology war jedoch nicht bereit, die Arbeit zur Veröffentlichung 
anzunehmen. Er lehnte sie ohne die sonst übliche Begutachtung 
durch andere Wissenschaftler, das so genannte peer review, mit der 
Begründung ab, sie erbringe keine neuen wissenschaftlichen Er- 
kenntnisse. Wir widersprachen mit dem Einwand, die gerechtfer- 
tigte Richtigstellung einer nicht haltbaren Aussage sei mindestens 
ebenso wichtig wie die Aussage selbst!?, und die müsse ja wichtig 
sein, sonst hätte er sie nicht gedruckt. Der Herausgeber blieb bei 
seinem Standpunkt und teilte uns mit, dass unser Manuskript nicht 
genügend neue Informationen enthalte, um eine Veröffentlichung 
zu rechtfertigen." 

Unter den 38 unhaltbaren Aussagen befanden sich Meldungen 
mit eindeutig klinischem Bezug. Da die Zeitschrift als das bedeu- 
tendste Radioonkologie-Fachblatt Europas gilt, ist nicht auszu- 
schließen, dass Sie eines Tages entsprechend dieser im « Losverfah- 


12 «We believe that the justified correction of a message is as important 
as the message itself. If, however, the editorial policy is opposite to this 
view, i.e. if you consider that it is of no relevance to the readers when an 
untenable statement printed in Radiotherapy and Oncology remains un- 
corrected, then you will find that it is of no use to publish our manu- 
script.» 

13 «I do regret to inform you that I do not consider your current manu- 
script to include sufficient new information to warrant publication and I 
must therefore inform you that the paper is unacceptable for publication in 
Radiotherapy and Oncology.» 
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ren» ermittelten und international publizierten Empfehlungen 
ärztlich behandelt werden.'* 

Ähnlich unwissenschaftlich wird in weiten Bereichen der Ge- 
sundheits- und Umweltepidemiologie verfahren. Die Publizisten 
Dirk Maxeiner und Michael Miersch (1996) beschreiben dies sehr 
treffend: «Wer einen Effekt findet, ist im Geschäft, wer keinen fin- 
det, ist draußen. In der Folge hat sich eine florierende Analyse- 
industrie entwickelt, die Gesundheitsverfahren und Umweltankla- 
gen in Serie produziert. Eine beliebte Methode ist beispielsweise 
das «data dredging>, das Durchforsten von gewaltigen Datenban- 
ken mit Hilfe der billigen Computerkapazität. Ein Beispiel: Wer 
lange genug bestimmte Lebensmittel durch bestimmte Kranken- 
gruppen rasen lässt, hat gute Chancen, irgendwann einen schein- 
bar auffälligen Zusammenhang zu finden. Sagen wir mal zwischen 
Milchkonsum und Frühgeburten, Rotkohl und grünem Star, Le- 
berkäse und Hühneraugen.» 


Kompost oder Komposition 
Zusammengesetzte Endpunkte 


Bei einer wissenschaftlichen Untersuchung, deren Ziel die Prüfung 
einer Hypothese ist, muss unbedingt vorab (a priori) der eine und 
einzige Endpunkt festgelegt werden. Das hat der letzte Abschnitt 
gezeigt. In manchen Fällen jedoch kann ein einzelner Endpunkt 
einen komplexen Sachverhalt nicht ausreichend beschreiben. Bei 
einer Krebsbehandlung kommt es beispielsweise nicht nur darauf 


14 Allerdings hat hier einer von uns (HPBB) seine weiße Weste ordentlich 
bekleckert. Er war für sein Talent bekannt, aus den wildesten Daten wun- 
derbare Grafiken zu zaubern - natürlich ohne zu schummeln (vgl. Kapitel 
«Mit der Wahrheit lügen »). Er trug die Daten auf die verschiedensten Ar- 
ten auf, so lange, bis bei irgendeiner Variante eine wunderschöne Gerade 
entstand. Meist war es nicht schwer, das Ergebnis dann auch sinnvoll zu 
interpretieren. Dieses Vorgehen ist aber im Grunde nicht verschieden von 
den Mehrfachtests bei klinischen Studien. 
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an, dass der Patient vom Tumor befreit wird, sondern auch, dass 
der Patient keine schweren Komplikationen erleidet. Ist da die Ver- 
wendung zweier Endpunkte nicht unvermeidlich ? 

Für derartige Fälle bieten zusammengesetzte Endpunkte einen 
Ausweg. Man spricht in diesem Zusammenhang auch von kompo- 
siten Endpunkten. In dem oben beschriebenen Beispiel könnte ein 
Behandlungserfolg folgendermaßen definiert werden: Patienten, 
die tumorfrei sind und keine schweren Komplikationen erlitten ha- 
ben. Ein Fehlschlag tritt demnach ein, wenn der Patient den Tumor 
nicht loswird oder schwere Komplikationen erleidet. Beides wird 
gleichermaßen in einem einzigen Endpunkt berücksichtigt. Die Si- 
tuation ähnelt derjenigen auf der Trabrennbahn: Pferde, die galop- 
pieren, werden disqualifiziert. Sieger ist, wer mit seinem Sulky als 
Erster über die Ziellinie fährt und dessen Pferd kein einziges Mal 
galoppiert hat. 

Besondere Bedeutung haben in der Medizin lebensbedrohliche 
Erkrankungen, wie beispielsweise die koronare Herzerkrankung. 
Bei vielen klinischen Studien geht es daher darum, das Leben der 
Patienten zu retten. Der primäre Endpunkt dieser Studien sollte da- 
her die Mortalität sein. Zählt man jedoch einzig die Mortalität als 
Endpunkt, dann wird die Nachbeobachtungsdauer im Allgemei- 
nen sehr lang und die Studie daher sehr teuer. Bei einer Verkürzung 
der Beobachtungszeit bekommt man nur wenige Ereignisse. 
Nimmt man zur Mortalität nicht-letale Ereignisse, wie beispiels- 
weise Herzinfarkte, hinzu, verkürzt sich die Beobachtungsdauer, 
man erfasst mehr Ereignisse, und unterm Strich benötigt man we- 
niger Patienten. Es liegt auf der Hand, dass der zusammengesetzte 
Endpunkt (Tod oder Herzinfarkt) im Mittel häufiger bzw. früher 
eintritt als irgendeine seiner Komponenten. Sieht ganz so aus, als 
würde man mit kompositen Endpunkten menschliche und finan- 
zielle Ressourcen schonen und schneller zu einem Ergebnis kom- 
men. 

Unser Schirm- und Kletterspezialist, Herr Doktor Sorglos, hat 
jüngst den Endpunkt «Tod oder Krankenhauseinweisung» erson- 
nen. Bei der konventionellen Vergleichsbehandlung beobachtete er 
2 Prozent Todesfälle und 20 Prozent Einweisungen. Demgegenüber 
waren es bei der von ihm erfundenen neuen Rund-um-sorglos-The- 
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rapie 10 Prozent verstorbene und 5 Prozent Krankenhauseinwei- 
sungen. Die Rund-um-sorglos-Therapie ist mit 15 Prozent kompo- 
siten Ereignissen folglich erheblich besser als die konventionelle 
Behandlung mit 22 Prozent. Dies ist allerdings ein Äpfel-und-Bir- 
nen-Endpunkt. Hier werden zwei Komponenten zusammenge- 
strickt, die alles andere als gleichwertig sind. Welcher Patient 
würde nicht doch lieber die konventionelle Therapie wählen, we- 
gen des 5-fach niedrigeren Sterberisikos und trotz des doppelten 
Einweisungsrisikos? Zugegeben, dies ist ein banales Beispiel. Wir 
haben es uns auch nur getraut zu nehmen, weil es in der Realität 
tatsächlich genau so vorkommt. Und die Studie, die wir meinen, ist 
nicht in irgendeinem Provinzblättchen, sondern im hoch angesehe- 
nen Fachjournal Lancet erscheinen (TIME Investigators, 2001). In 
dieser Studie lautet der Endpunkt: Sterblichkeit, Herzinfarkt und 
Krankenhauseinweisung wegen eines akuten koronaren Syn- 
droms'”. In der Zusammenfassung berichten die Autoren stolz, 
dass es ihnen gelungen sei, die kardialen Ereignisse von 49 Prozent 
auf 19 Prozent abzusenken (p<0,0001)'*. Klarer Fall für den eili- 
gen Leser: Die neue Therapie ist besser. 

Der bedächtigere Leser erfährt auch etwas über die einzelnen 
Komponenten des zusammengesetzten Endpunkts. Die Ergebnisse 
sind in der Tabelle 13 zusammengefasst. 

In der «besseren » invasiven Gruppe gibt es mehr als doppelt so 
viele Verstorbene wie in der anderen Gruppe. Die medikamentöse 
Gruppe schneidet im Wesentlichen wegen der häufigen Kranken- 
hauseinweisungen so schlecht ab. Für welche Behandlung würden 
Sie sich entscheiden ? 

Die Studie weist noch eine weitere Fußangel auf: In der Zusam- 
menfassung werden Anzahl und Anteil der Patienten mit Ereignis 
genannt. In der Tabelle werden die Anzahlen der Ereignisse vergli- 
chen. Es ist unschwer zu erkennen, dass ein Patient mehrere Freig- 
nisse haben konnte und nicht immer nur das erste Ereignis gezählt 


15 «Mortality, non-fatal myocardial infarction, and hospital admission 
for acute coronary syndrome » 

16 «Major adverse cardiac events occurred in 72 (49 %) of patients in the 
medical group and 29 (19 %) in the invasive group (p<0,0001).» 
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Tabelle 13: Endpunkte der TIME-Studie 


Optimale 
Endpunkt medikamentöse 
Behandlung (n = 148) 


Invasive 


Behandlung (n = 153) 


Tod 6 13 


Nicht-letaler 17 12 
Herzinfarkt 


Krankenhausein- 15 
weisung wegen 
akutem koronarem 


Syndrom 


Zusammengesetzter 40 


Endpunkt 


wurde. Ein Patient, der dreimal ins Krankenhaus eingeliefert 
wurde, aber noch lebt, bringt seiner Gruppe drei Negativpunkte 
ein. Ein Patient, dessen erstes und einziges Ereignis sein Ableben 
ist, bringt nur einen Negativpunkt ein. 

Bei dem hier genannten zusammengesetzten Endpunkt werden 
lebenswichtige und weniger wichtige Komponenten vermischt. 
Das ist nicht sinnvoll und irreführend. Überdies wird das Ergebnis 
noch mehr dadurch verzerrt, dass der weniger bedeutsame End- 
punkt von ein und demselben Patienten mehrmals erreicht werden 
kann, die sehr viel wichtigere Komponente Tod jedoch nicht. Man 
kann sich nur ein Bild vom tatsächlichen Geschehen machen, wenn 
man die Komponenten auch einzeln betrachtet. Dieses Beispiel 
zeigt darüber hinaus, dass es nicht genügt, den Abstract einer 
Publikation zu lesen. 


Das obige Beispiel wird noch von einer Untersuchung (Schrader et 
al., 2005) übertroffen, in der der zusammengesetzte Endpunkt ne- 
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ben dem Tod auch undramatische Ereignisse erfasste wie eine so 
genannte TIA (Transitorisch Ischämische Attacke). Eine TIA ist 
eine vorübergehende Durchblutungsstörung des Gehirns, die sich 
unter anderem durch Gleichgewichtsstörungen, Schwindel, Seh- 
oder Hörstörungen bemerkbar macht. Dies sind natürlich wichtige 
Warnsymptome. Derartige Symptome sollte man nicht auf die 
leichte Schulter nehmen, nur weil sie nach kurzer Zeit wieder ab- 
klingen. Die Patienten der betreffenden Studie waren jedoch alle 
aufgrund vorheriger Störungen des Hirnblutflusses bereits ge- 
warnt. Eine TIA ist für diese daher kein alarmierendes Ereignis 
mehr. Die TIA wurde aber in der Studie genauso gewichtet wie der 
Tod des Patienten. Der zusammengesetzte Endpunkt war für das 
angepriesene Medikament tatsächlich statistisch signifikant besser 
als für das Standardpräparat. Zieht man jedoch die TIA ab, dann 
verschwindet auch der Vorteil. 

Freemantle und Mitarbeiter (2003) haben eine Übersicht über 
Arbeiten mit kompositen Endpunkten erstellt. Dabei zeigte sich, 
dass in über einem Drittel der Studien der komposite Endpunkt 
eine statistisch signifikante Wirkung aufwies, die Gesamtmortali- 
tät jedoch nicht. 

Komposite Endpunkte sind nicht unbedingt stellvertretend für 
jede einzelne Komponente und können eine Wirkung auf eine rele- 
vante Komponente suggerieren, wo keine ist. Deshalb sollten nicht 
nur der komposite Endpunkt berichtet werden, sondern auch alle 
einzelnen Komponenten. Der Leser hat dann auch die Möglichkeit, 
die Komponenten individuell zu gewichten. Und wenn ehrlich über 
die Anzahl der getesteten Komponenten berichtet wird, kann der 
Leser auch die statistische Signifikanz der Ergebnisse unter 
Verwendung der Bonferroni-Korrektur einschätzen, sofern es die 
Autoren der Studie nicht schon selbst getan haben. 

Um texanischen Scharfschützen das Handwerk zu erschweren, 
muss auch ein zusammengesetzter Endpunkt, wie alle anderen 
Endpunkte auch, a priori spezifiziert worden sein. Da es bedeutend 
mehr Kombinationsmöglichkeiten als Einzel-Endpunkte gibt, wäre 
sonst die Gefahr des multiplen Testens bei zusammengesetzten 
Endpunkten besonders groß. 
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Reiseroulette mit alten Autos 
Mehrfachrisiken 


Ein altes Auto halten wir aus gutem Grund für weniger zuverlässig 
als ein neues. Nehmen wir an, dass fünfzig funktionierende Kom- 
ponenten (vier Zündkerzen, ein Verteiler, Benzinpumpe und deren 
Einzelteile, Wasserpumpe, Lichtmaschine, Keilriemen usw.) erfor- 
derlich sind, damit ein Auto fahrbereit ist. Bei Ihrem Neuwagen 
sind diese Komponenten auf den ersten zehntausend Kilometern 
mit 99,94-prozentiger Sicherheit funktionstüchtig. Die Wahr- 
scheinlichkeit, sie pannenfrei zu überstehen, beträgt somit 
0,9994°° = 0,97 oder 97 Prozent. Bei den verbleibenden 3 Prozent 
der Neuwagen gibt es Probleme; das ist einer von 33. Mit der Zeit 
und den gefahrenen Kilometern nimmt die Zuverlässigkeit der 
Komponenten ab. Nach einigen Jahren ist sie auf 99,8 Prozent ab- 
gesackt. Das klingt zwar immer noch sehr sicher, ist es aber nicht: 
Die Pannenfreiheit ist auf nur noch 0,998°’ = 0,9 oder 90 Prozent 
reduziert. Mit zehnprozentiger Wahrscheinlichkeit bleibt der Wa- 
gen dann auf einer 10 000-Kilometer-Tour stehen, im Mittel also 
einer von zehn. Damit hat er sich als Fahrzeug eines teuren Außen- 
dienstmitarbeiters disqualifiziert. Nochmals Jahre später arbeiten 
die Einzelteile nur noch mit 99-prozentiger Sicherheit. Damit sinkt 
die Zuverlässigkeit des gesamten Wagens auf 0,99°° = 0,605 oder 
60,5 Prozent. Mit fast 40 Prozent Pannenwahrscheinlichkeit auf 
zehntausend Kilometer werden mit diesem Auto längere Reisen 
zum Glücksspiel. 

Wenn Sie mit einem Auto die Wüste durchqueren wollen, dann 
steigen Ihre Überlebenschancen nicht nur mit der Zuverlässigkeit 
der Einzelkomponenten, sondern auch mit der Einfachheit des 
Fahrzeugs. Benötigt es fünfzig intakte Komponenten, um fahrbe- 
reit zu sein, so ist es deutlich anfälliger als ein Wagen, für dessen 
Einsatz nur zehn funktionsfähige Komponenten erforderlich sind: 
Bei einer Zuverlässigkeit der Einzelteile von 99,99 Prozent weist 
ein 50-Komponenten-Schlitten eine Sicherheit von 99,5 Prozent 
auf, während der spartanische 10-Komponenten-Jeep (0,9999'° = 
0,999) zu 99,9 Prozent fahrbereit ist. Das Risiko, mit diesem Jeep 
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in der Wüste eine Panne zu erleben, beträgt 1 - 0,999 = 0,001 = 0,1 
Prozent. Einer von eintausend bleibt also auf der Strecke. Wenn 
Ihnen dieses Risiko zu hoch ist, dann fahren Sie besser im Konvoi 
mit beispielsweise zwei Autos, von denen zur Not ein einziges aus- 
reicht, um die Wüste unbeschadet wieder zu verlassen. Die Wahr- 
scheinlichkeit, dass beide Autos ausfallen, beträgt 0,001 x 0,001 = 
0,000001, was bedeutet, dass nur eine von einer Million Expedi- 
tionen wegen defekter Fahrzeuge misslingen wird. Dies ist auch der 
Grund, weshalb nicht einzelne Kamelreiter, sondern stets Karawa- 
nen die Wüste durchqueren und bei Flug- wie Raumfahrzeugen 
lebenswichtige Komponenten immer mindestens doppelt vorhan- 
den sind.” 

Diese in der Technik längst selbstverständlichen Einsichten 
werden in der Wissenschaft kaum beherzigt. Sonst dürften bei- 
spielsweise in klinischen Studien nur wenige Parameter (= Kompo- 
nenten) untersucht werden. Auch wäre es dann die Regel, Unter- 
suchungen zu wiederholen. Die Forderung, dass eine Studie 
wenigstens einmal reproduziert werden muss, entspricht dem 
Vorschlag, die Wüste mit wenigstens zwei Fahrzeugen zu durch- 
queren. 


Von Spekulanten und Scharfschützen 
Mehrfachtests 


Sobald ein Optimist ein Licht erblickt, das es gar nicht gibt, 
findet sich ein Pessimist, der es wieder ausbläst. 
Giovanni Guareschi 


Von einem selbstlosen Propheten erhalten Sie per Post nacheinan- 
der sechs Prognosen darüber, ob eine bestimmte Aktie in einem be- 


17 Bei diesen Überlegungen haben wir nur Pannen durch Versagen des 
Autos selbst berücksichtigt. Im Grunde kommen noch äußere Faktoren 
dazu, wie beispielsweise verunreinigtes Benzin, die neue und alte Autos 
gleichermaßen betreffen. 
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stimmten Zeitraum steigen oder fallen wird.'® Durch Vergleich mit 
den jeweils aktuellen Börsennachrichten stellen Sie fest, dass alle 
Prognosen richtig waren. Die Wahrscheinlichkeit, dass der Prophet 
einfach nur richtig geraten hat, ist sehr gering; sie beträgt etwa 1,6 
Prozent.'” Da sie kleiner als 5 Prozent ist, scheint die Treffsicher- 
heit des Propheten statistisch signifikant zu sein. Nun erhalten Sie 
eine siebte Prognose zum Kauf angeboten. Der Preis ist gering im 
Verhältnis zum erwarteten Gewinn. Was tun Sie? 

Sie werden diesem Bauernfänger hoffentlich nichts abkaufen. 
Wenn er tatsächlich die Kursentwicklung voraussagen könnte, 
dann würde er seine Zeit nicht damit verplempern, Ihnen Börsen- 
tipps anzubieten, sondern das Geschäft selber machen. Seine Stra- 
tegie ist einfach und sicher: Man versende 32.000 Briefe, von denen 
16000 einen Kursanstieg und 16000 einen Kursverfall ankündi- 
gen. Den 16000 Adressaten mit dem richtigen Tipp schreibe man 
ein zweites Mal. Der einen Hälfte, also 8000, prognostiziere man 
wiederum steigende, der anderen sinkende Kurse, und so fahre 
man fort, bis 500 Personen übrig bleiben, die nacheinander sechs 
richtige Prognosen erhalten haben. Denen biete man den siebten 
Tipp gegen eine angemessene Gebühr an. 

Für diese Art von Betrug sind keine hellseherischen Fähigkeiten 
erforderlich. Die Treffsicherheit des Börsenpropheten lässt sich 
aber nur dann richtig einschätzen, wenn man alle seine Versuche 
und nicht nur eine positive Auswahl kennt. 

Entsprechend kann die Bedeutung eines Ergebnisses nur dann 
richtig beurteilt werden, wenn alle im Rahmen einer Untersuchung 
durchgeführten statistischen Tests bekannt sind. Dies ist jedoch in 
der «wissenschaftlichen» Literatur keineswegs der Fall. Häufig 
stellen Autoren die signifikanten Ergebnisse bevorzugt dar und 
verschweigen die zahlreichen erfolglosen Tests. Solchen Bauern- 
fängern kaufen Sie hoffentlich auch nichts ab. Statistiker sprechen 
in diesem Zusammenhang von einer «fishing expedition». Dazu 


18 Dieses Beispiel stammt von dem Mathematiker John Allen Paulos. Wir 
haben es in dem Buch Das Ziegenproblem von Gero von Randow gefun- 
den. 

19 (0,5)° = 0,0156 oder 1,6 Prozent. 
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nehme man einen Datensatz und untersuche so viele Parameter wie 
möglich. Kommt man zum Beispiel auf zwanzig, besteht bereits die 
reelle Chance von 64 Prozent (siehe unsere Tabelle «Wie viele Zu- 
fallsergebnisse kann man erwarten?» im Anhang I), mindestens 
einmal irgendetwas Signifikantes zu finden. Die Betonung liegt auf 
irgendetwas. Als ein derart «fleißiger » Forscher könnten Sie eben- 
so gut im Porzellanladen mit einer Schrotflinte auf ein mit Tassen 
gefülltes Regal schießen, dann auf die Scherben eines Mokkatäss- 
chens zeigen und behaupten, dass Sie genau diese Tasse treffen 
wollten. 

Die Signifikanzjagd mit der Schrotflinte führt zu einer Flut nutz- 
loser Publikationen, die wirklich wesentliche Arbeiten schwer 
auffindbar macht oder sogar ganz unter sich begräbt. Da Desinfor- 
mation die Forschung erheblich behindert, muss aus wissenschaft- 
lichen und im Falle klinischer Studien auch aus ethischen Gründen 
ein wesentlich höherer Maßstab an die Durchführung und Aus- 
wertung von Untersuchungen gelegt werden. Sollen unsere gegen- 
wärtigen Forschungsbemühungen wirklich zu einem Fortschritt, 
zum Beispiel in der Medizin, führen, sodass spätere Generationen 
sie ernst nehmen können, dann muss der Unsinn aufhören, den 
Börsenpropheten und Amokläufer in Porzellanläden hervorbrin- 
gen. Die konsequente und korrekte Anwendung statistischer 
Methoden kann dazu beitragen, diese alchemistische Ära, in der 
praktisch jeder Datensatz zu «signifikanten » Ergebnissen führt, zu 
beenden. 

Übrigens wurde früher fast ausschließlich mit einem Signifikanz- 
niveau von 0,27 Prozent, das heißt p < 0,0027, gearbeitet (Sachs 
1978). Da stieß man nicht auf so viele «signifikante» Ergebnisse 
und musste entsprechend weniger publizieren. Für einen Wissen- 
schaftler sind die gegenwärtig Monat für Monat erscheinenden 
«neuen Erkenntnisse» in der biomedizinischen Forschung selbst 
auf engen Spezialgebieten kaum noch zu bewältigen. Die Wissen- 
schaftspolitik fördert heute nur die Informationsquantität, wäh- 
rend Qualität kaum Beachtung findet, höchstens in dem Sinne, 
dass die «Qualität» einer Zeitschrift anhand der Quantität der Zi- 
tierungen bewertet wird. (Vergleichen Sie zum so genannten im- 
pact factor den Abschnitt «Viel Blech ist noch lange kein Auto».) 


Wir sind der festen Überzeugung, dass es hier in absehbarer Zu- 
kunft zu einem Umdenken kommen muss und wird.” Masse allein 
nützt nichts. Wenn die guten Arbeiten in der Informationsflut ver- 
sinken, dann haben wir es mit Desinformation zu tun. Was wir 
brauchen, ist nicht mehr, sondern bessere Forschung. Wenn wir 
weiter nach der Maxime publish or perish — veröffentliche oder 
geh vor die Hunde - verfahren, wird es die Wissenschaft sein, die 
vor die Hunde geht. 


Ein Spiel mit gezinkten Würfeln 
Reproduzierbarkeit 


Der Wissende weiß, 
dass er glauben muss. 
Friedrich Dürrenmatt 


Was ist in dieser Situation zu tun? Wie können Irrtümer vermieden 
werden? Die Antwort auf diese Frage ist seit langem bekannt. In 
unserer Vorlesung haben wir die Studenten wieder mit einem Wür- 
felspiel an das Problem und dessen Lösung herangeführt. 

Durch das Beladen von Würfeln mit Blei wird erreicht, dass 
diese deutlich häufiger eine Sechs ergeben als ein normaler Würfel. 
In unserer Vorlesung gaben wir Gruppen von vier bis fünf Studen- 
ten jeweils eine Hand voll Würfel, unter denen sich bei einigen auch 
ein gezinkter Würfel befand. Die Aufgabe lautete, eine Methode zu 
entwickeln, wie man allein durch Würfeln - also nicht durch ge- 
nauere Betrachtung oder Untersuchung der Würfel - herausfinden 
kann, ob sich unter den Würfeln gezinkte befinden und welche es 
sind. Des Rätsels Lösung ist, sich die Würfel nacheinander vorzu- 
nehmen, möglichst oft zu werfen und auf die Häufigkeit der Sech- 
ser zu achten. Das Ganze artet regelmäßig in Fleißarbeit aus. 


20 Seit dem Erscheinen der Originalausgabe dieses Buches im Jahre 1997 
ist es eigentlich nur schlimmer geworden. Dennoch haben wir die Hoff- 
nung nicht aufgegeben. 


Keine einzige Gruppe kam auf die unsinnige Idee, nur ein einzi- 
ges Mal zu würfeln und zu behaupten, alle Würfel, die bei diesem 
einen Wurf eine Sechs zeigten, seien gezinkt. Genau so aber wird in 
der modernen medizinischen Forschung verfahren, ein Vorgehen, 
das völlig abwegig ist, denn 1. ist nicht jede Sechs Beweis für einen 
gezinkten Würfel, und 2. liefert ein gezinkter Würfel auch mal eine 
andere Zahl als die Sechs (bei unseren ist dies in etwa 20 Prozent 
der Würfe der Fall). 

Der wissenschaftliche Begriff für wiederholtes Würfeln zur 
Erkennung der gezinkten Würfel heißt «Reproduzieren». Damit 
ein Ergebnis bestehen kann, muss es mehrfach wiederholt und 
bestätigt werden. Ein gezinkter Würfel ist wie eine Gesetzmäßig- 
keit. Die Tatsache, dass damit eine Sechs besonders häufig gewür- 
felt wird, ist nicht zufällig, sondern durch das Bleigewicht systema- 
tisch bedingt und deshalb reproduzierbar, was sich aber nur durch 
mehrfaches Würfeln feststellen lässt. Die Forderung nach der 
Reproduzierbarkeit von wissenschaftlichen Ergebnissen ist eine 
der Haupt-errungenschaften der Aufklärung. 

Reproduzierbarkeit bedeutet Wiederholbarkeit an jedem Ort, zu 
jeder Zeit, durch jeden Forscher. Das funktioniert in der klassi- 
schen Physik und in der Technik wunderbar. Wenn ich Zweifel an 
der Erdanziehungskraft habe, dann lasse ich eine Münze oder 
einen Schlüssel fallen. Das lässt sich immer wieder und überall wie- 
derholen. Will ich überprüfen, ob auch eine Vase immer und über- 
all der Schwerkraft folgt, treten bereits die ersten Schwierigkeiten 
auf. Es fallen Kosten für Material (Vase) und Personal (einer muss 
die Scherben wegräumen) an, die die Häufigkeit des Reprodu- 
zierens limitieren. Wiederholte Experimente zur Frage «Gilt 
die Schwerkraft auch für gefüllte Rotweingläser über dem neuen 
hellen Teppich im Wohnzimmer der Nachbarn?» sind noch dazu 
sozial unverträglich. 

Noch komplizierter wird es, wenn man sich auf das Gebiet der 
modernen Wissenschaft begibt. Wissenschaftler sind darauf 
trainiert, etwas Neues zu finden. In einer wissenschaftlichen Veröf- 
fentlichung ermahnt der Satz «Hiermit wurde erstmals gezeigt, 
dass ...» den Leser nicht zur Vorsicht, sondern weist ihn beschei- 
den darauf hin, dass diese Arbeit eine Pioniertat ohnegleichen ist 
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und ihren Autoren Lob und Anerkennung gebührt. Eigene Experi- 
mente zu wiederholen ist die mühsame und unspektakuläre Seite 
des Forschens und unterbleibt daher meistens. Es gilt der Wahl- 
spruch: «Wiederhole nie ein erfolgreiches Experiment.» Noch lang- 
weiliger ist das Reproduzieren der Ergebnisse anderer Wissen- 
schaftler. Wozu auch? Bekommt man dasselbe heraus wie der 
Entdecker, dann wird sich kaum eine Fachzeitschrift für das Ergeb- 
nis interessieren, weil es nicht neu ist. Etwas anderes herauszube- 
kommen als der mittlerweile bekannte und hofierte Pionier ist nicht 
unbedingt förderlich für die Karriere. Und negative Ergebnisse wer- 
den nicht gerne genommen. Mit etwas Pech bekommt man sie mit 
der Bemerkung zurück, man habe wohl nicht sauber genug gear- 
beitet. Mit etwas Glück werden sie vielleicht doch irgendwann ver- 
öffentlicht, dann aber deutlich später als positive Ergebnisse. Da 
aber die Anzahl der Veröffentlichungen immer noch das zentrale 
Kriterium für den Erfolg wissenschaftlicher Arbeit ist, tut man sich 
mit der Wiederholung fremder Experimente keinen Gefallen. 


Je teurer ein Experiment ist, desto unwahrscheinlicher ist es, dass 
es wiederholt wird. Das Vorhaben, die Experimente eines anderen 
Wissenschaftlers zu reproduzieren, klingt für potenzielle Geldgeber 
nicht gerade attraktiv. Patentierbare Resultate, die sich später be- 
zahlt machen, wird man so schon gar nicht gewinnen. Hat man die 
Finanzierungshürde genommen und ist es nach mehrjähriger Ar- 
beit gelungen, das ursprüngliche Ergebnis zu reproduzieren, kann 
man zwar sicherer sein, dass das Resultat stimmt — bewiesen ist mit 
der einmaligen Überprüfung aber noch lange nichts. Ob man aber 
zur weiteren Wiederholung und Absicherung der Daten die not- 
wendigen Geldgeber auftreibt, ist mehr als fraglich. Irgendwo en- 
det die Reproduzierbarkeit. 

In der medizinischen Forschung kommen zu den finanziellen 
Problemen ethische hinzu. Bei Erkrankungen mit irreversiblen Fol- 
gen und wenn es um Menschenleben geht, ist der Preis für das 
Reproduzieren offenbar zu hoch. Klinische Studien dürfen nur 
durchgeführt werden, wenn die Chancen für die Patienten in den 
Versuchsarmen, nach Ausschöpfung aller verfügbaren Informatio- 
nen, gleich sind. Nur wenn wirklich unklar ist, welche Behandlung 
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die bessere ist, dürfen die Therapien in einer klinischen Studie mit- 
einander verglichen werden. Etwas anderes würde keine Ethik- 
Kommission genehmigen. Hat eine Studie ein einziges Mal gezeigt, 
dass Therapie A besser als Therapie B ist, dann kann diese Studie 
aus ethischen Gründen eigentlich nicht wiederholt werden. Ob- 
wohl es nicht sicher ist, dass Therapie A wirklich die bessere ist, 
stehen die Chancen jetzt nicht mehr gleich. Ethik und Wissen- 
schaftlichkeit erscheinen unvereinbar. Kann ethische Medizin 
überhaupt wissenschaftlich sein ? 


Wir können die Frage nicht beantworten, aber noch weiter ver- 
komplizieren: Kann unwissenschaftliche Medizin ethisch sein? 
Mit der gegenwärtigen Praxis klinischer Studien besteht die Ge- 
fahr, dass mit wackeligen Ergebnissen Behandlungsmodalitäten 
für die Zukunft festgeschrieben werden, die für zukünftige Patien- 
ten nachteilig sind. Ethik und Wissenschaft stecken in einem 
Dilemma. Ethisch korrekte Behandlung der Patienten von heute 
verbietet Wissenschaftlichkeit. Damit wird eine Verbesserung der 
medizinischen Behandlung unterbunden, was ebenfalls ethisch 
unkorrekt ist, nämlich den zukünftigen Patienten gegenüber. Rigo- 
rose Wissenschaftlichkeit heute wäre ethisch korrekt den zukünf- 
tigen, aber nicht den gegenwärtigen Patienten gegenüber. 


Heute mal ganz ausgelassen 
Unterschlagung von Informationen 


Die hinterhältigste Lüge ist die Auslassung. 
Simone de Beauvoir 


Im Reiseprospekt sah das ganz anders aus. Die Terrasse, der Gar- 
ten, ein paar Bäume und Büsche, dahinter gleich der Sandstrand - 
die sechsspurige Straße dazwischen war auf dem Foto nicht zu 
erahnen. Und tatsächlich, von der Stelle aus, und nur von dort, wo 
der Fotograf gestanden haben muss, kann man die Straße nicht se- 
hen - nur hören. Diese Art zu lügen, nämlich durch Auslassen und 
Verschweigen, ist in Reiseprospekten nicht erlaubt. Die Straße 
muss zumindest im Text erwähnt werden. In der Wissenschaft 
dagegen ist man in dieser Hinsicht sehr viel freizügiger. 


Reden ist Silber, Schweigen ist Gold 
Verschweigen von Daten 


Bevor wir einige Beispiele aus verschiedenen Wissenschaftsberei- 
chen erläutern, möchten wir Sie mit dieser Manipulationsmöglich- 
keit anhand eines ausgedachten einfachen Vorgangs vertraut 
machen. Abbildung 16 zeigt den Bestandsverlauf einer inzwischen 
seltenen Käferart im Harz. Offensichtlich ist sie vom Aussterben 
bedroht, hat sich aber in den letzten Jahren auf niedrigem Niveau 
halten können. 

Abbildung 17 hingegen zeigt den Furcht erregenden Anstieg 
eines Schädlingsbestandes im Harz. Wir sehen, dass diese Schäd- 
linge im Jahre 2004 praktisch noch nicht vorkamen. Seit 2005 ver- 
doppelt sich ihre Anzahl jedoch jedes Jahr. 
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Abbildung 16: Bestand einer inzwischen seltenen, vom Aussterben be- 
drohten und völlig frei erfundenen Käferart im Harz 
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Abbildung 17: Rasante Entwicklung von Schädlingen im Harz 


Beide Abbildungen beruhen auf denselben Daten. Die erste zeigt 
den gesamten Verlauf von 1999 bis 2007, während die zweite le- 
diglich den Ausschnitt von 2004 bis 2007 darstellt, wobei die senk- 
rechte Achse gestreckt ist. Wenn man wie hier die Möglichkeit hat, 
beide Abbildungen direkt miteinander zu vergleichen, fällt sofort 
auf, wie billig und trotzdem wirkungsvoll dieser Trick ist. In der 


Realität sind derartige Manipulationen nicht so auffällig, weil die 
direkte Gegenüberstellung im Allgemeinen fehlt. Dass es trotzdem 
möglich ist, Auslassungssünden aufzudecken, zeigen die folgenden 
realen Fälle. 


Heiße Luft? 
Globale Erwärmung 


Prediction is very difficult, especially about the future. 
Niels Bohr 


Eine gegenwärtig weit verbreitete Vorstellung ist, dass sich unser 
Planet mit katastrophalen Folgen für die Zukunft langsam, aber 
stetig erwärmt, weil wir Menschen die Atmosphäre verunreinigen. 
Diese Ansicht wird mit dem Temperaturverlauf der letzten 110 
Jahre (Abbildung 18) untermauert, in denen tatsächlich ein Anstieg 
um etwa 0,7 Grad Celsius zu verzeichnen ist. 
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Abbildung 18: Globale Erwärmung in der nördlichen Hemisphäre seit 
1880 (NASA 2000) 
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Diese Erwärmung lässt sich allerdings auch als längst fällige Erho- 
lung von einer vorhergehenden Kälteperiode einstufen. 
Zusammen mit Ergebnissen der Analyse von Sedimenten in ab- 
gelegenen und damit ungestörten Alpenseen wurde im Mai 1997 in 
Nature (Sommaruga-Wögrath et al. 1997) der Verlauf der Lufttem- 
peratur von 1778 bis 1991 veröffentlicht (Abbildung 19). Der aus 
Abbildung 18 bekannte Temperaturanstieg der letzten hundert 
Jahre wird damit bestätigt. Hinzu kommt, dass die Temperatur 
während der hundert Jahre davor um etwa denselben Wert abge- 
nommen hat. Zu garantiert industrie- und autofreien Zeiten war es 
also schon einmal genauso warm wie heute. Uns ist dabei klar, dass 
die Angabe einer Durchschnittstemperatur für ein geographisch 
stark gegliedertes Land wie Österreich ein bedenkliches Unterfan- 
gen ist. Diese Bedenken treffen allerdings in weit größerem Maße 
auch auf die Temperaturangabe für die gesamte nördliche Hemi- 
sphäre zu. Theoretiker der globalen Erwärmung bevorzugen Ab- 
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Abbildung 19: Mittlere Lufttemperatur in Österreich von 1778 bis 1991 
(nach Sommaruga-Wögrath et al. 1997) 


bildung 18, die bemerkenswerterweise genau zu dem Zeitpunkt be- 
ginnt, an dem die Temperatur der letzten zweihundert Jahre am 
niedrigsten war. 

Schauen wir doch noch weiter zurück. Der Temperaturverlauf 
auf unserem Planeten kann durch Untersuchungen von Eisbohr- 
kernen in der Antarktis und in Grönland rekonstruiert werden 
(Broecker 1996; Lamont-Doherty Earth Observatory, 1996). 
Abbildung 20 zeigt die Temperaturentwicklung über die letzten 
110000 Jahre. In dieser Zeitspanne schwankte die Temperatur um 
etwa 10 Grad Celsius. Die letzten Jahrtausende erscheinen eher als 
eine Zeit mit weitgehend konstanter Temperatur. Daneben fällt der 
«Besorgnis erregende» Temperaturanstieg der letzten 110 Jahre 
(Abbildung 18) derart gering aus, dass er in Abbildung 20 kaum 
noch erkennbar ist. Er befindet sich ganz rechts im letzten halben 
Millimeter der Kurve. 

Es ist völlig normal, dass die mittlere Temperatur auf unserem 
Globus nicht nur über die Jahreszeiten schwankt, sondern auch in 
Perioden von Jahrhunderten und Jahrtausenden. Stellt man mit den 
Wassertemperaturdaten von Mai bis Juli Hochrechnungen an, 
dann lässt sich aus ihnen der Schluss ziehen, dass man gegen 
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Abbildung 20: Globale Temperatur während der letzten 110000 Jahre, 
ermittelt durch Messungen an Bohrkernen im grönländischen Eisschild 
(Broecker 1996) 
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Ostern des folgenden Jahres im Mittelmeer Eier kochen kann. Das 
ist Blödsinn, denn wir wissen, dass sich die Temperatur periodisch 
verändert und sich der Anstieg wieder umkehrt. Genauso unsinnig 
ist es, mit den Daten der letzten 110 Jahre Prognosen zur zukünfti- 
gen Klimaentwicklung vorzunehmen. Zwischen Eis- und Warmzei- 
ten steigt die Temperatur kontinuierlich an und nimmt zur nächs- 
ten Eiszeit hin wieder ab. Dieser über zig Jahrtausende ablaufende 
Wechsel ist altbekannt. Es gab ihn, schon lange bevor die ersten 
Menschen auf der Erde auftauchten und lange bevor der erste In- 
dustrieschornstein rauchte. Wer Abbildung 20 betrachtet, könnte 
leicht auf den Gedanken kommen, dass sich möglicherweise dem- 
nächst eine der vielen schnellen Temperaturabnahmen vollziehen 
wird. Steht uns vielleicht sogar eine globale Erkältung bevor? 


Hitzefrei 
Der heißeste 8. Juni der letzten hundert Jahre 


Während wir über diesen Zeilen schwitzten, hörten wir im Radio, 
dass der 8. Juni 1996 der heißeste 8. Juni der letzten einhundert 
Jahre gewesen sei. Ist dies wieder ein Beleg für globale Erwär- 
mung? Keineswegs! 

Das Jahr hat 365 Tage. Für jeden von ihnen gibt es ein Jahr in 
den letzten einhundert Jahren, in dem es an dem Tag im Vergleich 
zu allen anderen Tagen desselben Datums am heißesten war. Wenn 
keine zunehmende Erwärmung stattfindet, dann sind diese heißes- 
ten Tage gleichmäßig über die einhundert Jahre verteilt. In jedem 
Jahr gibt es dann im Mittel 365/100 = 3,65, also drei bis vier « hei- 
ßeste Tage der letzten hundert Jahre». Entsprechend natürlich 
auch drei bis vier kälteste Tage, schwülste Nächte und so fort. 

Persönlich bevorzugen wir Abbildung 18, weil wir es gern etwas 
wärmer hätten, können leider jedoch nicht ganz daran glauben. 
Wir wissen auch nicht, ob es anhaltend wärmer oder kälter werden 
wird oder ob die Temperaturen bleiben, wie sie sind. Aber wenn 
Sie durch unsere Ausführungen zum Thema «globale Erwär- 


mung» etwas skeptisch geworden sind, dann haben wir schon viel 
erreicht. Zweifeln Sie an allem! Natürlich auch an dem, was Sie in 
diesem Buch finden. Als Fachleute für Biophysik und Strahlenbio- 
logie haben wir nicht mehr Ahnung von Meteorologie als andere 
Laien. Andererseits muss man nicht unbedingt ein Fachmann für 
Amalgam, Rinderwahnsinn, Elektrosmog usw. sein, um in öffent- 
lichen Diskussionen zur Debatte gestellte Argumente auf ihre 
Schlüssigkeit überprüfen zu können. 


Land in Sicht! 
Steigende Meeresspiegel ? 


Je populärer eine Idee, desto weniger 
denkt man über sie nach, und desto 
wichtiger wird es also, ihre Grenzen 
zu untersuchen. 
Paul Feyerabend 


Da wir schon einmal dabei sind, über globale Erwärmung zu 
schreiben, können wir es uns nicht verkneifen, an dieser Stelle vom 
eigentlichen Thema des Kapitels etwas abzuweichen und einige von 
keinerlei Fachkenntnis gebremste Zweifel an angeblich bevorste- 
henden Klimakatastrophen vorzubringen. Eine immer wiederkeh- 
rende Prophezeiung lautet: «Wenn sich die Temperatur kontinuier- 
lich erhöht, dann schmelzen die Polkappen, und damit steigt dann 
auch der Meeresspiegel.» Sie hat unter anderem bereits dazu ge- 
führt, dass sich die kleinsten Inselstaaten zu einer Gemeinschaft zu- 
sammengeschlossen haben, um so ihre «existenziellen » Interessen 
am Klimaschutz effektiver vertreten zu können. Wir trauen der Ge- 
schichte nicht. 

Beginnen wir mit dem Eismeer um den Nordpol und mit einem 
kleinen Experiment. Nehmen Sie ein Trinkglas, geben Sie eine 
große Portion Eiswürfel hinein, und füllen Sie es mit Wasser auf, so- 
dass das Eis schwimmt. Stellen Sie es auf einen Tisch, und markie- 
ren Sie mit einem Filzstift den Wasserspiegel. Was geschieht mit 


ihm, wenn das Eis schmilzt? - Nichts! Warum? Eis ist leichter als 
Wasser, darum schwimmt es ja auch. Es verdrängt genau so viel 
Wasser, wie es seinem Gewicht entspricht. Das Volumen, mit dem 
es unter Wasser war, und das Volumen, das entsteht, wenn es 
schmilzt, sind identisch. Dasselbe gilt natürlich für Eisberge. Fast 
die gesamte nördliche Eiskappe schwimmt auf dem Meer. Selbst 
wenn sie vollständig abschmelzen sollte, würde sich der Meeres- 
spiegel deswegen nicht ändern'. Diese Erkenntnis ist nicht neu. Sie 
geht auf den Griechen Archimedes (285 bis 212 vor unserer Zeit- 
rechnung) zurück. 

Am Südpol ist es anders, weil dort das Eis nicht schwimmt, son- 
dern auf dem antarktischen Kontinent aufliegt. Die Temperaturen 
sind allerdings deutlich niedriger als am Nordpol. Sie betragen um 
minus 40 Grad Celsius. Nach einer «Erwärmung» um 5 Grad auf 
minus 35 Grad Celsius würde das Eis noch lange nicht schmelzen, 
allenfalls an den Rändern, aber die schwimmen auf dem Meer 
(weitere Argumentation siehe Nordpol). Doch das ist noch nicht 
alles. Woher kommt denn das Eis auf dem Südpol? Vom Schnee. 
Und woher kommt der Schnee? Aus der Atmosphäre. Und wie 
kommt er dorthin? Durch Verdunstung anderswo auf dem Plane- 
ten. Diese nimmt aber mit der Temperatur zu. Wenn es also «wär- 
mer» wird, dann ist mehr Wasser in der Atmosphäre gelöst, und 
damit steigt auch die Niederschlagsmenge. Die jährliche Schnee- 
menge ist in der Antarktis umso größer, je «wärmer» das Jahr ist, 
weil dann mehr Wasser mit der Luft transportiert wird. Bei einem 
Temperaturanstieg um einige Grad nimmt die Eisdecke in der Ant- 
arktis also zu! Die Folge müsste demnach ein sinkender Meeres- 
spiegel sein. 

Nun könnte man einwenden: «Das mag ja alles sein, aber die 
ganzen Gletscher in den Alpen, auf Grönland und im Himalaja 
und sonst wo, die werden wegschmelzen. Und dann steigt der Mee- 
resspiegel.» Stimmt! Ob die geringe Menge aber ausreicht, um die 


1 Diese Aussage stimmt nicht hundertprozentig. Wasser hat bei verschie- 
denen Temperaturen eine unterschiedliche Dichte und dehnt sich oberhalb 
von 4 Grad Celsius aus. Dieses Argument jedoch wird in der öffentlichen 
Diskussion über die steigenden Meeresspiegel nur selten verwendet. 
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zunehmende Eisdecke am Südpol auszugleichen, erscheint fraglich. 
Außerdem: Im Winter ist die nördliche Halbkugel mit ziemlich viel 
Schnee und Eis bedeckt. Im Frühjahr führt die Schneeschmelze re- 
gelmäßig zu Überflutungen an den Flussufern. Aber haben Sie 
schon einmal gehört, dass sie zu einem Anstieg des Meeresspiegels 
geführt hätte? 

Es gibt noch viele andere Faktoren, die den Meeresspiegel bei 
steigender Temperatur beeinflussen können: Luftfeuchtigkeit und 
Niederschläge, Löslichkeit von Salzen, Bewegungen der Erdkruste, 
Temperaturausdehnung des Wassers usw. Wir, die Autoren dieses 
Buches, wissen wenig über sie. Wir können also auch nicht sagen, 
ob der Meeresspiegel steigen oder sinken wird, wenn die globale 
Temperatur um 5 Grad Celsius ansteigt. Die üblichen Argumente 
überzeugen uns jedoch nicht. Sie sind ebenso gut geeignet, ein Sin- 
ken des Meeresspiegels zu prophezeien. 

Unsere Bemerkungen sollen keine Anstiftung zum Kauf von 
Grundstücken zwischen Helgoland und Sylt sein. Wir wünschen 
uns nur mehr Sachlichkeit und weniger Sensations- und Katastro- 
phengeilheit in derartigen Diskussionen. 


Was ich nicht weiß, macht mich nicht heiß 
Verschweigen von Daten in der Krebsforschung 


Betrügen war schon immer eine Kunst. 
Seit einiger Zeit ist es auch eine Wissenschaft. 
Federico Di Trocchio 


Um das nun folgende authentische Beispiel aus der Krebsforschung 
verstehen zu können, brauchen wir ein paar Erläuterungen. Ein 
fraglos wichtiges Kriterium für den Erfolg einer Krebstherapie ist 
die Verlängerung der Lebensdauer eines Patienten, der unbehandelt 
sehr bald sterben würde. Diese Wirkung wird als Überlebensrate 
angegeben, die Auskunft darüber gibt, wie viele Patienten zum Bei- 
spiel fünf Jahre nach der Behandlung noch leben. Wenn es gelingt, 
einen Tumor vollständig zu beseitigen und ein späteres Wiederauf- 
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wachsen zu verhindern, dann gilt der Patient als «lokal geheilt». 
Das Wort «lokal» bezieht sich dabei auf den Ort des Tumors be- 
ziehungsweise die Körperregion, die chirurgisch oder strahlenthe- 
rapeutisch behandelt wurde. Die Qualität einer Therapie spiegelt 
sich also auch in der «lokalen Heilungsrate » wider, die angibt, bei 
wie vielen Patienten (wieder nach zum Beispiel fünf Jahren) der 
behandelte Tumor nicht nachgewachsen ist. Nun ist es jedoch mög- 
lich, dass ein Patient zwar erfolgreich behandelt wurde und lokal 
geheilt ist, aber dennoch an Tochtergeschwülsten, so genannten 
Metastasen, stirbt. Wir sehen, dass die beiden Qualitätskriterien 
Überlebensrate und lokale Heilungsrate keineswegs identisch sind. 

Es gibt Tumoren, die auf eine Behandlung sehr schlecht anspre- 
chen, mit denen man aber lange leben kann. Bei ihnen ist die lokale 
Heilungsrate gering, die Überlebensrate dagegen hoch. Im umge- 
kehrten Fall ist der Tumor zwar lokal leicht zu heilen, die Überle- 
bensrate aber wegen starker Metastasenbildung gering. Um die Be- 
handlungsergebnisse möglichst vollständig darzustellen, ist es in 
der medizinischen Fachliteratur daher üblich, beide Erfolgskrite- 
rien anzugeben. 

Nun zu unserem authentischen Fall. Es geht um die Bestrahlung 
von Tumoren im Kopf-Hals-Bereich. In einer britischen Studie 
wurden Krebspatienten mit zwei verschiedenen Therapien behan- 
delt. Abbildung 21 zeigt die Ergebnisse, die wir der internationalen 
Fachliteratur entnommen haben (Saunders et al. 1991). 

Im oberen Teil der Abbildung ist die lokale Heilungsrate gegen 
die Zeit aufgetragen. Die gestrichelte Kurve bezieht sich auf eine 
neue Behandlungsmethode, deren positiver Effekt mit Hilfe der 
Studie bestätigt werden sollte (Saunders et al. 1991). Die durchge- 
zogene Kurve zeigt das Resultat einer Vergleichsgruppe von Patien- 
ten, die eine konventionelle Therapie erhielten. Bei einem Teil der 
Patienten konnte der Tumor nicht vollständig vernichtet werden; 
deswegen beginnen die Kurven am Anfang nicht bei 100 Prozent, 
sondern bei 90 beziehungsweise 60 Prozent. Im Laufe der Zeit 
zeigte sich, dass die Beseitigung des Tumors bei einem Teil der Pa- 
tienten doch nicht von Dauer war - die Tumoren wuchsen wieder 
auf. Aus diesem Grund sinken die beiden Kurven mit der Zeit ab. 
Nach drei Jahren (36 Monaten) kam es jedoch zu keinen weiteren 
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Abbildung 21: Ergebnisse einer Studie zur Strahlentherapie von Kopf- 
Hals-Tumoren (Saunders et al. 1991). Die obere Abbildung ist auch in 
Lehrbüchern zu finden (Joiner 1993). 


Rückfällen mehr; die Kurven verlaufen jetzt waagerecht. Wer es bis 
dahin geschafft hatte, tumorfrei zu bleiben, war offenbar tatsäch- 
lich geheilt. Die gestrichelte Kurve liegt in der oberen Abbildung 
immer über der durchgezogenen. Die Behandlungsergebnisse der 
neuen Therapie führten offensichtlich zu einem höheren Prozent- 
satz geheilter Patienten. Sie war für die Erkrankten anscheinend 
deutlich günstiger. 

Im unteren Teil der Abbildung ist die Überlebensrate (Prozent- 
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satz der überlebenden Patienten) gegen die Zeit aufgetragen. Ob- 
wohl bei der Standardtherapie in 40 Prozent der Fälle der Tumor 
unter der Behandlung nicht verschwand, also lokal nicht geheilt 
wurde, lebten alle Patienten noch mehrere Monate lang (durchge- 
zogene Kurve). Daher verläuft die Kurve zunächst horizontal und 
fällt erst später ab. Die Überlebenskurve der neuen Behandlungs- 
methode liegt höher als die der Standardtherapie. Es zeigt sich also 
auch in der unteren Grafik ein deutlicher Vorteil zugunsten der 
neuen Behandlung. Allerdings nur, weil geschummelt wurde. 

Wenn man weiß, ob ein Patient geheilt wurde, dann ist auch be- 
kannt, ob er noch lebt. Daher müssen beide Zeitachsen, die der lo- 
kalen Heilungsrate und die der Überlebensrate, gleich lang sein. 
Sind sie aber nicht. Die untere Zeitachse erstreckt sich über 36, die 
obere über etwa 53 Monate. Wir sehen nur einen Teil der Überle- 
benskurve. Offenbar gab es hier etwas zu verbergen! Damit der 
Schwindel nicht gleich ins Auge springt, wurde die Zeitachse der 
Überlebenskurve etwas gestreckt, bis sie genauso lang war wie 
die Zeitachse der Heilungen. Wir hatten den Verdacht, dass sich 
die Überlebenskurven nach mehr als drei Jahren überschneiden 
und sich die anfänglich vorteilhafte neue Therapie langfristig als 
die schlechtere entpuppen könnte, Solche Überschneidungen der 
Überlebenskurven sind durchaus möglich, auch wenn die lokalen 
Heilungskurven parallel verlaufen. Beispielsweise ist denkbar, dass 
die Patienten, bei denen eine lokale Heilung nicht gelungen ist, 
nach der konventionellen Therapie deutlich länger leben als nach 
der neuen. Auch könnten sich nach Einsatz des neuen Behand- 
lungsverfahrens mehr Metastasen bilden als bei der Standard- 
methode. 

Unmittelbar nach Erscheinen des Artikels haben wir diese Dar- 
stellungsweise in einem Leserbrief an die Herausgeber der Zeit- 
schrift beanstandet (Beck-Bornholdt und Dubben 1992). Ein Le- 
serbrief wird in der Fachpresse aber erst dann abgedruckt, wenn 
eine Stellungnahme der kritisierten Autoren vorliegt. Die hatten es 
jedoch überhaupt nicht eilig und ließen sich mit der Antwort ein 
Jahr (!) Zeit, was unserer Auffassung nach daran gelegen haben 
dürfte, dass zu diesem Zeitpunkt eine große internationale Studie 
zu ebenjener Therapie von ebenjenen Autoren initiiert wurde. Eine 


solche multizentrische Untersuchung lässt sich jedoch nur dann er- 
folgreich durchführen, wenn alle beteiligten Kliniken regelmäßig 
Patientendaten einbringen. In der Anlaufphase, bevor in den ein- 
zelnen Kliniken die Beteiligung zur Routine geworden ist, hätte 
eine öffentliche Infragestellung der Ergebnisse durch unseren Le- 
serbrief das Projekt gefährden können, weil dann vielleicht einige 
Kliniken auf die Idee gekommen wären, die Zusammenarbeit auf- 
zukündigen. 

So erhielten wir die Antwort (Dische et al. 1992) erst viel später. 
Sie bestätigte unseren Verdacht: «Der Überlebensvorteil ... ver- 
schwindet nach fünf Jahren.» («The advantage in overall survival 
shown ... is lost by the fifth year.») Dabei hielten es die Autoren 
nicht für notwendig, in ihrer Stellungnahme das vollständige Er- 
gebnis zu präsentieren. Sie zogen es vielmehr vor, die schlechten 
Resultate weiterhin zu verschweigen. Ob sich eventuell sogar ein 
Nachteil für die mit der neuen Therapie behandelten Patienten er- 
geben hat, ist nicht bekannt, da keine Aktualisierung der in Abbil- 
dung 21 gezeigten unvollständigen Resultate erschienen ist. Den- 
noch sind die Ergebnisse dieser Untersuchung zu einem festen Be- 
standteil einschlägiger Fortbildungsveranstaltungen und Lehrbü- 
cher (Joiner 1993) geworden. Die groß angelegte internationale 
Studie mit insgesamt über neunhundert Patienten ist mittlerweile 
abgeschlossen. Ein Vorteil der neuen Therapie gegenüber der alten 
hat sich dabei für die Patienten mit Tumoren im Hals-Kopf-Bereich 
nicht ergeben (Dische und Saunders 1996). 

Wir haben gesehen, dass die Dauer der Nachbeobachtung ent- 
scheidend für die Einschätzung der Wirksamkeit einer Therapie 
sein kann. Bei der Lektüre der Literatur unseres Fachgebietes fällt 
uns immer wieder auf, dass es zahlreiche international bekannte 
und viel zitierte große Studien gibt, über die lediglich vorläufige 
Berichte veröffentlicht wurden, so genannte preliminary oder inte- 
rim reports. Zum Teil sind die endgültigen Ergebnisse auch dann 
nicht erschienen, wenn die Arbeitsgruppe noch viele Jahre weiter 
auf demselben Gebiet geforscht und publiziert hat. Die Vermutung 
liegt nahe, dass den Autoren die endgültigen Ergebnisse nicht mehr 
genehm waren. Die zwangsläufig unvollständigen Ergebnisse eines 
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preliminary report finden oft große Verbreitung”, ohne dass sie je- 
mals durch spätere final reports bestätigt werden. Diese Art der 
voreiligen Veröffentlichung wirft auch erhebliche statistische Pro- 
bleme auf, sodass darauf völlig verzichtet werden sollte (Simon 
1993). Nicht umsonst wird beim Pferderennen von vornherein 
festgelegt, über welche Distanz das Rennen geht. Dürfte der Zo- 
cker nachträglich festlegen, welche Strecke zu werten ist, würde es 
für einen Gewinn genügen, wenn das Pferd, auf das er gesetzt hat, 
zu irgendeinem Zeitpunkt des Rennens vorne lag. Diese einleuch- 
tende Grundregel wird in der Wissenschaft häufig nicht eingehal- 
ten. 


Not macht erfinderisch 
Betrug durch Hinzudichten von Ergebnissen 


Corriger la fortune. 
Gotthold Ephraim Lessing 


In seinem Buch Der große Schwindel: Betrug und Fälschung in der 
Wissenschaft beschreibt Federico Di Trocchio [1994] eine erschre- 
ckende Zunahme von Wissenschaftsfälschungen in den letzten 
Jahrzehnten’. Er zeigt, wie sich die Wissenschaft von einer Beru- 


2 Marcial et al. (1987) ist ein viel zitiertes Beispiel auf dem Gebiet der Ra- 
dioonkologie. Auch sehr häufig zitiert wird ein Abstract von Datta et al. 
(1989), das nie zur Publikation gelangte. Lobend hervorzuheben ist hinge- 
gen die Studie von Bogaert et al. (1986), von der neun Jahre später ein 
«Up-date» (Bogaert et al. 1995) erschien. Durch die längere Nachbeob- 
achtungszeit manifestierten sich hoch signifikante schwerste Nebenwir- 
kungen der neuen Therapie. Die katastrophalen Ergebnisse werden zwar 
ehrlich angegeben, sind aber im Text derart versteckt, dass sie der flüchtige 
Leser mit Sicherheit übersieht. 

3 Einen Fall aus unserem ehemaligen Fachgebiet haben wir in einem Le- 
serbrief aufgedeckt (Dubben und Beck-Bornholdt 1995). Er bezieht sich 
auf einen Artikel (Burnet et al. 1994), in dem die Autoren nach einigen Jah- 
ren die Stirn besaßen, die aus Opportunismus verschwiegenen Daten einer 


fung zu einem Beruf wandelte, wie die gegenwärtigen Betrügereien 
mit dem System der Forschungsfinanzierung zusammenhängen 
und wie das System der «Big Science», die mit Millionen finan- 
zierte Großforschung unserer Tage, zur Beute mittelmäßiger und 
betrügerischer Wissenschaftler wird. 

Das Weglassen unliebsamer Messwerte ist wahrscheinlich eine 
der häufigsten Formen von Fälschung in der Wissenschaft. Es gibt 
aber auch das Gegenteil, das Erfinden von Messwerten. 

Ein Beispiel aus der Krebsforschung ist die so genannte NSABP- 
Studie (Fisher et al. 1989). Sie ist Grundlage der brusterhaltenden 
Therapie des Mammakarzinoms. Zunächst konnte man nur im In- 
ternet, jetzt auch in gedruckter Form nachlesen (Fisher et al. 1995), 
dass ein Autor der Studie (nicht Fisher!) gefälschte Daten einge- 
reicht hatte. Die Reihenfolge der Autorennamen im Titel dieser 
Studie, an der zahlreiche Kliniken beteiligt waren, sollte sich nach 
der Anzahl der eingebrachten Patienten richten. Anscheinend 
wollte der Fälscher gern weiter vorn in der Autorenliste stehen und 
hat einfach Patienten dazuerfunden. 

Ein weiteres Beispiel für brisante Fälschungen in der Krebs- 
forschung ist die Hochdosis-Chemotherapie beim Mammakarzi- 
nom. Bei dieser Therapieform werden den Patientinnen zunächst 
Stammzellen aus dem Knochenmark entnommen, dann werden 
ihnen extrem hohe Dosen von Chemotherapeutika verabreicht, 
und anschließend erhalten die Patientinnen ihre Blut bildenden 
Zellen wieder zurück. Mit dieser Methode sorgte Werner Bezwoda, 
Professor für Hämatologie und Onkologie an der Universität Wit- 
watersrand in Johannesburg/Südafrika, 1995 für Aufsehen, da er 
über außergewöhnlich gute Ergebnisse berichtete. Die Behand- 
lungsmethode wurde daraufhin überall in der Welt etabliert. Im 
Jahre 1999 bekam die Euphorie einen ersten Dämpfer. Eine skan- 
dinavische und zwei amerikanische Studien fanden keinerlei Vor- 


früheren Untersuchung (Burnet et al. 1992) zu einem späteren Zeitpunkt 
doch noch zu veröffentlichen. Die ursprüngliche und unvollständige Fas- 
sung steht mittlerweile im Lehrbuch (Begg 1993). Die aufgeregte Antwort 
der Autoren auf unseren knappen Leserbrief findet man bei Burnet et al. 
(1995). 


teile dieser radikalen Therapieform. Nur eine vierte Untersuchung 
bestätigte Bezwodas Ergebnisse von 1995. Der Schönheitsfehler 
war allerdings, dass der Autor dieser vierten Studie Bezwoda selbst 
war. 

Ein US-Forscherteam suchte Bezwoda im Januar 2000 auf. Die 
Sichtung der Akten ergab eine ganze Reihe von Widersprüchen 
und Fälschungen. Anfang Februar legte Bezwoda ein Geständnis 
ab und zog seine Ergebnisse zurück. Die Ergebnisse der Überprü- 
fung wurden im Frühjahr 2000 veröffentlicht (Farham & Brad- 
bury 2000; Hagmann 2000). 

Zum Thema Fälschungen schreibt Erwin Chargaff (1992): «In 
den letzten zweihundert Jahren war in den reinen Naturwissen- 
schaften die Publikation gefälschter und erlogener Resultate etwas 
überaus Seltenes ... [Dies] beruhte darauf, dass angesichts der re- 
lativ geringen Zahl von Arbeiten die Wahrscheinlichkeit sehr groß 
war, dass jede halbwegs wichtige Beobachtung innerhalb von ein 
oder zwei Jahren widerlegt oder bestätigt worden wäre. Dies trifft 
nicht mehr zu, denn besonders auf den als biomedizinische For- 
schung bezeichneten Gebieten ist die Fülle der Arbeiten so über- 
wältigend, die Versuchsanordnung so kompliziert und kostspielig 
und die experimentelle Beschreibung oft so ungenau und ober- 
flächlich, dass eine Wiederholung viel zu schwierig und uneinla- 
dend ist. Trotzdem ist in den letzten Jahren eine überraschend 
große Menge von Schwindel und Gaunerei aufgedeckt worden, 
meistens als Folge von Denunziation und Berufsneid; und das ist 
wahrscheinlich nur die sprichwörtliche Spitze des Eisbergs.» 


Wo bleibt das Negative? 
Unausgewogene Berichterstattung in der 
Wissenschaft - publication bias 


«... auch negative Ergebnisse 

müssen veröffentlicht oder der Öffentlichkeit 
anderweitig zugänglich gemacht werden.» 
Deklaration von Helsinki, Weltärztebund 


Vom Beginn einer klinischen Studie über die Lektüre der Publika- 
tion bis zur Anwendung ihrer Ergebnisse sind zahlreiche Hürden 
zu nehmen, mit der Folge, dass nicht alle Resultate veröffentlicht 
werden. Diese Hürden sind häufig eher psychologischer und publi- 
zistischer als wissenschaftlicher Natur. Das, was die Endverbrau- 
cher wissenschaftlicher Information, also Wissenschaftler, Ärztin- 
nen und Patienten, im Rahmen einer Literaturrecherche finden, ist 
häufig kein getreues Abbild dessen, was tatsächlich in Kliniken 
und Labors zu dem Thema erforscht worden ist. Man spricht von 
publication bias, wenn die veröffentlichten Forschungsergebnisse 
nicht repräsentativ für alle erzielten Resultate sind. Bias kommt 
aus dem Englischen und bedeutet systematische Abweichung, Ver- 
zerrung. Publication bias ist unausgewogene Berichterstattung in 
der Wissenschaft. 

Der älteste uns bekannte Hinweis! auf dieses Phänomen geht auf 
den Philosophen und Atheisten Diagoras von der Insel Milos zu- 
rück. Diagoras wurde vor 2500 Jahren angesichts der Danktafeln 
(Abb. 22 links), die gerettete Schiffbrüchige in einem Tempel auf- 
gestellt hatten, von einem Priester gefragt, ob dies nicht ausrei- 
chende Evidenz für die Existenz der Götter sei. Worauf Diagoras 
entgegnet haben soll: « Und wo sind die Tafeln der Ertrunkenen? » 

Bei Diagoras’ Schiffbrüchigen ist die positiv eingefärbte Bericht- 
erstattung offensichtlich. Kein einziger Ertrunkener hat nach 


1 Gefunden bei Petticrew 1998. 


Abbildung 22: In der Antike erreichten die Danksagungen geretteter 
Schiffbrüchiger die Tempel zuverlässiger als die Beschwerdebriefe der Er- 
trunkenen. Tempelbesucher erhielten dadurch ein übertrieben positives 
Bild von den göttlichen Aktivitäten auf hoher See. Positive und negative 
wissenschaftliche Ergebnisse der Gegenwart gelangen ebenfalls mit unter- 
schiedlicher Zuverlässigkeit in die universitären und ärztlichen Lesetempel 
und lassen so ein verzerrtes Bild der Wissenschaft entstehen. 


menschlichem Ermessen die Gelegenheit gehabt, sein Missfallen 
mit einer Tafel im Tempel kundzutun. Im Tempel werden zu 100 
Prozent positive Ergebnisse gezeigt. In einer der führenden medizi- 
nischen Fachzeitschriften, dem New England Journal of Medicine, 
betrug der Anteil positiver Ergebnisse 88 Prozent. In psychologi- 
schen Fachzeitschriften betrug der Anteil sogar über 95 Prozent 
(Dickersin & Min 1993; Sterling 1959) und erinnert damit an 
«Wahlergebnisse» in totalitären Staaten. Derart hohe Anteile an 
positiven Ergebnissen lassen deutlich Zweifel aufkommen, ob 
diese Berichte repräsentativ für das sind, was tatsächlich alles er- 
forscht wurde. In der Waschpulverreklame sind wir darauf gefasst, 
dass ein einseitiges Bild des angepriesenen Produkts gezeichnet 
wird. An die Wissenschaft haben wir höhere Ansprüche. Die Dia- 
goras-Frage lautet also: «Und wo sind die Veröffentlichungen der 
Studien mit negativem Ergebnis? » 


Auf Spurensuche 
Wie entsteht publication bias? 


Im Werdegang einer Studie und deren Publikation gibt es vier Sta- 
tionen, die für die Untersuchung und den Nachweis von publica- 
tion bias besonders interessant sind: 1.) Die etwaige Erfassung der 
Studien, auch derer, die später nicht publiziert werden. 2.) Die Au- 
toren der Studien, die entscheiden, ob sie ihre Ergebnisse überhaupt 
publizieren wollen. 3.) Die wissenschaftlichen Fachzeitschriften be- 
ziehungsweise deren Herausgeber und Gutachter und schließlich 
4.) der Verbraucher, also die Ärztin, der Patient, die Wissenschaft- 
lerin, denn sie muss die Studie in der umfangreichen internationa- 
len Fachliteratur unvoreingenommen suchen, finden und möglichst 
unvoreingenommen lesen, bewerten und verwerten. Diese vier Sta- 
tionen werden im Folgenden näher beschrieben. 

Für die Untersuchungen des publication bias ist zunächst eine 
Informationsquelle notwendig, die möglichst alle klinischen 
Studien unabhängig von ihrem Ergebnis erfasst. Dies wäre dann 
gewährleistet, wenn ein Forschungsvorhaben bei Initiierung oder 


Patient 


Abbildung 23: Längst nicht alle wissenschaftlichen Ergebnisse kommen 
dem Patienten zugute. Auf dem beschwerlichen Weg von der Studie bis 
zum Patienten bleibt ein großer Teil der Ergebnisse auf der Strecke und 
landet im Papierkorb. 
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zumindest zu einem Zeitpunkt, an dem noch keine Ergebnisse 
vorliegen, registriert wird. Mehrere Autoren? untersuchten das 
Schicksal von Forschungsprojekten, die von Ethikkommissionen 
genehmigt worden waren. Projekte mit statistisch signifikanten Er- 
gebnissen hatten eine mehr als dreifach höhere Chance, publiziert 
zu werden als nicht-signifikante. Bei den methodisch anspruchsvol- 
leren randomisierten kontrollierten Studien fanden Easterbrook 
und Mitarbeiter allerdings keinen Hinweis auf publication bias. 

Wissenschaftliche Kongresse sind häufig das erste Forum, auf 
dem neue Forschungsergebnisse vorgestellt werden. Daher bieten 
sie eine interessante Gelegenheit zur Untersuchung von publication 
bias. Callaham und Mitarbeiter (1998) konnten zeigen, dass einge- 
reichte Forschungsarbeiten mit einem positiven Ergebnis etwa 
doppelt so gute Chancen hatten, zum Kongress angenommen zu 
werden, als mit negativem Ergebnis. Scherer und Mitarbeiter 
(1994) untersuchten, ob und wann randomisierte kontrollierte Stu- 
dien, die auf Ophthalmologenkongressen im Jahre 1988 und 1989 
vorgestellt worden waren, später veröffentlicht wurden. Nur etwa 
die Hälfte der Studien wurde nachfolgend veröffentlicht, die meis- 
ten binnen zwei Jahren. Dabei zeigte sich eine leichte Bevorzugung 
signifikanter Ergebnisse.” 

Forscher sind darauf aus, etwas Neues zu finden. Das ist auch 
die Erwartung der Gesellschaft an die Wissenschaft. Fremde Expe- 
rimente und Studien zu wiederholen und damit zu überprüfen, 
wird folglich von Wissenschaftlern als langweilig empfunden und 
ist mit dem Verdacht verbunden, man habe keine eigenen erfor- 
schenswerten Ideen und koche aus diesem Grunde lediglich die 
Studien seiner wesentlich intelligenteren und kreativeren Kollegen 
nach. So finden kritische Überprüfungen der häufig bejubelten po- 
sitiven Ergebnisse kaum statt - schon gar nicht, wenn sie arbeits- 
aufwendig sind. Aber auch bei der Erforschung neuer und auf eige- 
nen Ideen beruhender Zusammenhänge möchte man lieber heraus- 
finden, dass dieses oder jenes funktioniert, und nicht, dass es nicht 


2 Easterbrook et al. (1991); Dickersin et al. (1992); Stern & Simes (1997). 
3 Siehe auch: Hopewell & McDonald 2003; Klassen et al., 2002; Timmer 
et al., 2002. 
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funktioniert. Manche Autoren sind also enttäuscht und entmutigt, 
wenn sie negative Ergebnisse haben, und zögern, diese überhaupt 
zur Publikation einzureichen. 

Ioannidis (1998) untersuchte den Verbleib aller 109 randomi- 
sierten Wirksamkeitsstudien, die im Zeitraum von 1986 bis 1996 
von der AIDS Clinical Trials Group und von der Terry Beirn Com- 
munity Programs for Clinical Research on AIDS durchgeführt 
wurden. Vom Studienbeginn bis zur Veröffentlichung verstrichen 
bei positiven Studien im Median 4,3 Jahre, bei «negativen» Stu- 
dien waren es 6,5 Jahre (p<0,001). Von den 6,5-4,3=2,2 Jahren 
Unterschied konnten etwa 1,4 Jahre auf das Zeitintervall zwischen 
Vollendung der Nachbeobachtung und der Veröffentlichung zu- 
rückgeführt werden. Diese beobachtete zeitliche Differenz ist ver- 
mutlich der Beitrag der Autoren und Herausgeber am publication 
bias. Zu weiteren Verzögerungen führt möglicherweise die Quali- 
tät, sprich Größe, der Studie. Ioannidis (1998) zeigte auch, dass die 
Studien mit negativem Ergebnis etwa doppelt so viele Patienten wie 
die positiven eingeschlossen hatten. Dies erfordert natürlich mehr 
Zeit für die Patientenrekrutierung, und entsprechend später liegen 
die Ergebnisse vor. Diese größeren Studien sind aussagekräftiger 
als die kleineren, aber ihre Vorbereitung durch beispielsweise das 
Anwerben von kooperierenden Kliniken benötigt nochmals mehr 
Zeit. Damit ist auch der Beginn der negativen Studien verzögert. 
Insgesamt erscheinen daher Studien mit negativem Ergebnis meist 
einige Jahre nach den positiven Studien zu derselben Fragestellung. 
In der Zwischenzeit gibt es übertriebene Vorstellungen über den 
Nutzen eines Medikamentes oder einer Therapie. Dieser initialen 
Welle der Euphorie folgt dann nicht selten eine Phase der allmäh- 
lichen Ernüchterung. 

Stern & Simes (1997) zeigten ebenfalls, dass negative Studien 
später veröffentlicht werden als positive (time-lag bias). Die Abbil- 
dung 24 zeigt den Anteil der nicht-publizierten Arbeiten im Verlauf 
der Zeit nach Genehmigung durch eine Ethikkommission. Die 
Kurve für die Studien mit statistisch signifikanten Ergebnissen fällt 
früher ab, das heißt, dass diese Studien früher veröffentlicht wer- 
den als Studien mit nicht-signifikanten Ergebnissen, bei denen der 
Verlauf deutlich flacher ist. Nach etwa fünf Jahren war die Hälfte 


aller positiven Studien veröffentlicht. Bei den Studien mit negati- 
ven Ergebnissen dauerte es etwa drei Jahre länger. Nach 10 Jahren 
waren nur 15 Prozent der signifikanten Studien noch nicht publi- 
ziert. Bei den nicht-signifikanten Studien waren es demgegenüber 
fast die Hälfte. Am flachsten verläuft die Kurve für diejenigen Stu- 
dien, die fast signifikant sind. Ob dies daran liegt, dass die Autoren 
der Studien hoffen, dass sich durch längeres Nachbeobachten doch 
noch ein signifikantes Resultat ergeben könnte? 


{=} 


© 
{=} 


Fast signifikant 
0,055<p<0,1 


} 
{=} 


a‘ 
© 


Nicht 
signifikant 


oa» a 
SO _9_O 


Signifikant 


Nicht-publizierte Arbeiten (%) 
DD [2] 
(2 [=] 


- 
{=} 


Dr Mer 8 Mr ee 

Jahre nach Genehmigung durch Ethikkommission 
Abbildung 24: Anteil der nicht-publizierten Arbeiten im Verlauf der Zeit 
nach Genehmigung durch eine Ethikkommission. Studien mit statistisch 
signifikanten Ergebnissen werden häufiger und früher veröffentlicht als 
Studien mit nicht-signifikanten Ergebnissen (nach Stern & Simes, 1997). 


Bei Befragung werden von Forschern unterschiedliche Gründe da- 
für angegeben, dass sie ihre Ergebnisse nicht veröffentlicht haben: 
Das Ergebnis sei nicht signifikant; der Sponsor halte die Daten zu- 
rück; Veröffentlichung sei nicht Ziel der Studie gewesen; keine 
Zeit oder kein Interesse mehr; «unwichtige» Ergebnisse; Ableh- 
nung des Manuskriptes befürchtet; andere Publikation mit ähnli- 
chen Ergebnissen zwischenzeitlich in der Literatur gefunden; 
Wechsel der Arbeitsstelle usw. Methodische Probleme oder eine 
tatsächliche Ablehnung des Manuskripts betreffen nur jeweils ca. 
10 Prozent der nicht-publizierten Studien‘. 


4 Dickersin et al. 1992, Dickersin & Min 1993, Easterbrook et al. 1991, 
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Lexchin und Mitarbeiter (2003) zeigten, dass von der Pharma- 
industrie finanzierte Medikamentenstudien seltener zur Publika- 
tion gelangten als Studien mit anderen Finanzierungsquellen. Fer- 
ner gelangten industriefinanzierte Studien etwa viermal so häufig 
zu einem positiven Ergebnis als die anderen Studien. Lexchin und 
Mitarbeiter fanden keine offensichtlichen Hinweise auf Unter- 
schiede in der methodischen Qualität zwischen pharma- und an- 
derweitig gesponserten Studien und vermuten daher als Ursache 
publication bias, d.h., Pharma-Studien mit negativen Ergebnissen 
bleiben noch häufiger unter Verschluss. Als weitere mögliche Ursa- 
che führen sie inadäquate Vergleichsbehandlungen an, die bei- 
spielsweise darin bestehen können, dass man die Kontrollgruppe 
mit dem Konkurrenzpräparat behandelt - allerdings hoffnungslos 
unterdosiert. In einer Horde Maulesel ist eben ein mittelmäßiges 
Pferd bereits ein Champion. 

Das Gegenstück zum Verschweigen unliebsamer Daten ist die 
mehrfache und selektive Veröffentlichung angenehmer, meist posi- 
tiver Ergebnisse. Eine Form davon ist die Aufspaltung großer mul- 
tizentrischer Studien in viele kleinere Berichte, bei denen so getan 
wird, als ob es sich jeweils um unterschiedliche Studien handeln 
würde. Da die Autoren es versäumen, auf diesen Umstand hinzu- 
weisen, und sich in der Autorenschaft abwechseln, ist es sehr 
schwierig, derartige Mehrfachpublikationen zu erkennen (Gilbody 
& Song 2000). Es ist schon kriminalistische Hartnäckigkeit erfor- 
derlich, um Existenz und Wirkung verdeckter Mehrfachpublika- 
tionen aufzudecken. 

Melander und Mitarbeiter (2003) verglichen 42 placebo-kon- 
trollierte Studien über fünf verschiedene Antidepressiva, die zwi- 
schen 1983 und 1999 bei der Swedish Drug Regulatory Authority 
zur Genehmigung eingereicht worden waren, mit den tatsächlich 
daraus hervorgegangenen Publikationen. Von den insgesamt 42 
Studien fielen 21 positiv aus. 19 der 21 positiven Studien wurden 
veröffentlicht, während von den 21 Studien mit negativen Ergeb- 
nissen lediglich 6 zu einer Publikation führten. Aus einem tatsäch- 


Horton 1997, Misakian & Bero 1998, Weber et al. 1998, Timmer et al. 
2002. 
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lichen 21:21 (also unentschieden) wird für den Leser der Fachlite- 
ratur ein 19:6 zugunsten der Studien mit signifikantem Ergebnis. 

Huston und Moher (1996) fanden eine besondere Perle: eine 
Studie, die in derselben Zeitschrift innerhalb von fünf Jahren zwei- 
mal publiziert wurde. Weil sie so schön unverschämt ist, hier gleich 
die Zitate: 


McMillan, J. I.: Tolmetin sodium vs ibuprofen in rheumatoid 
arthritis patients previously untreated with either drug: a dou- 
ble blind cross-over study. Curr. Ther. Res. 22 (1977), 
S. 266-275. 

McMillan, J. I.: Rheumatoid arthritis: a double blind study 
comparing tolmetin sodium with ibuprofen in patients un- 
treated with either drug previously. Curr. Ther. Res. 31 (1982), 
$. 813-820. 


Die verdeckte mehrfache Veröffentlichung positiver Studien er- 
weckt den Eindruck, dass sehr viel mehr Studien mit obendrein 
ähnlichen Ergebnissen durchgeführt wurden. Dies führt zu einer 
Überschätzung der Evidenz dieser Ergebnisse. Eine weitere Ver- 
mehrung der Publikationen findet durch zahlreiche Metaanalysen 
und Übersichtsartikel statt, die sich mehr oder weniger überschnei- 
den. Auch hier kann inkorrektes Zitieren es schwierig bis unmög- 
lich machen, die tatsächliche Evidenz richtig einzuschätzen. Es 
liegt auf der Hand, dass dies zum Schaden der Patienten ist, aber 
kommerziellen Interessen entgegenkommt — zumindest kurzfristig 
betrachtet. 

Eine andere Art von Unausgewogenheit entsteht durch das se- 
lektive Berichten über bestimmte Arten der Auswertung (Melander 
et al. 2003). 41 von 42 der der Swedish Drug Regulatory Authority 
vorgelegten Studienberichte enthielten zwei oder mehr alternative 
Datenanalysen («intention to treat» und «per protocol»). Diese 
Berichte führten zu 28 Publikationen, in denen in nur zwei Fällen 
beide Analysen präsentiert wurden. Ansonsten wurde nur über das 
meist industriefreundlichere Ergebnis einer «per protocol»-Ana- 
lyse berichtet, bei der nicht protokollkonform behandelte Patien- 
ten ausgeschlossen werden. Dies führt zu einer erheblichen Über- 


schätzung des Nutzens der getesteten Medikamente (siehe auch 
Seite 240). 

Nicht alle Autoren haben die Unverschämtheit und das Glück, 
mit ein und denselben Daten mehrfach Lorbeer zu ernten. Es kann 
auch schwierig sein, eine Arbeit überhaupt zu publizieren. Wenn 
ein Manuskript aber erst einmal geschrieben ist, wird es häufig so 
lange bei verschiedenen Zeitschriften eingereicht, bis es jemand an- 
nimmt. Wissenschaftler stehen unter Druck, möglichst viel und in 
möglichst hochrangigen Zeitschriften zu veröffentlichen. Bei der 
ersten Einreichung zielt der Autor im Allgemeinen auf das Journal 
mit dem höchsten Ansehen, das sein Manuskript nach eigener Ein- 
schätzung gerade noch nehmen müsste. In der Regel wird das ein 
internationales englischsprachiges Blatt sein. Wird die Arbeit vom 
Traumblatt abgelehnt, gibt ein erfahrener Autor nicht auf. Das 
Manuskript hat ja viel Mühe und Zeit gekostet, und der Autor 
kann seine Existenz nicht mit abgelehnten Arbeiten rechtfertigen. 
Das Manuskript landet also auf dem Schreibtisch des Herausge- 
bers der Zeitschrift mit dem nächstniedrigen Rang. Mit der Anzahl 
der Versuche nimmt das Ansehen der gewählten Zeitschrift ab, da- 
mit meist auch der Verbreitungsgrad, und am Ende lauert ein na- 
tionales Blatt, das den Artikel in der Landessprache herausgibt. 
Wenn nun negative Ergebnisse mit höherer Wahrscheinlichkeit ab- 
gelehnt werden als positive, dann liegt es auf der Hand, dass ers- 
tere im Mittel eine längere Strecke auf dem Leidensweg in Rich- 
tung zum Bezirksblatt zurücklegen. Da am Anfang die Eigenein- 
schätzung der Autoren eine Rolle spielt und negative Ergebnisse 
auch von den Autoren gering geschätzt werden, beginnt obendrein 
der Weg negativer Studien nicht beim Top-Journal, sondern bei 
Zeitschriften mit geringerem Ansehen. 

Insgesamt bleibt festzuhalten, dass es für Forscher zahlreiche Be- 
weggründe gibt, Ergebnisse zurückzuhalten. Dies betrifft in erster 
Linie negative Ergebnisse. Insbesondere bei positiven Ergebnissen 
besteht die Tendenz, diese mehrfach zu veröffentlichen. Die veröf- 
fentlichte (!) Literatur über publication bias zeigt also, dass die 
Autoren in erheblichem Ausmaß zur Unausgewogenheit der Be- 
richterstattung in der Wissenschaft beitragen. Ob die Literatur 
über Unausgewogenheit der Berichterstattung in der Wissenschaft 


selbst ausgewogen ist, haben wir gesondert untersucht (Dubben 
und Beck-Bornholdt, 2005). Wir fanden keine eindeutigen Hin- 
weise, aber mangels zum Thema publizierter Masse ist unsere Un- 
tersuchung mit einer großen Wahrscheinlichkeit für einen Fehler 
zweiter Art behaftet (siehe Kapitel «Im Nebel nach Überseh »). 
Neben den Autoren tragen auch Herausgeber und Gutachter 
(peer rewiewer) zum Mauerblümchendasein negativer Ergebnisse 
bei. Ioannidis (1998) und Stern & Simes (1997) stellten in ihren 
Untersuchungen fest, dass lediglich Studien mit negativen Ergeb- 
nissen von mehr als einer Zeitschrift abgelehnt wurden. Es gibt of- 
fenbar eine selektive Akzeptanz von positiven Arbeiten bei den 
Fachzeitschriften. Anno dazumal war dies sogar klare Direktive: 
«mere confirmation of known facts will be accepted only in excep- 
tional cases; the same applies to reports of experiments and obser- 
vations having no positive outcome.» Diese markigen Worte stam- 
men aus den Instruktionen für Autoren der Zeitschrift Diabetolo- 
gia im Jahre 1984 und sind mittlerweile zurückgenommen. Sie ge- 
ben aber den Zeitgeist eindrucksvoll wieder. Und einige Zeitgeister 
sind sehr haltbar. Ungefähr so haltbar wie ihre Träger. Insgesamt 
entsteht der Eindruck, dass bei den Zeitschriften positive und 
«passende» Ergebnisse erwünschter sind als deren Gegenstücke. 
Mit zunehmendem Einfluss der Evidenzbasierten Medizin ent- 
halten Anzeigen für Arzneimittel in Fachzeitschriften immer häufi- 
ger bibliographische Hinweise. Villanueva und Mitarbeiter (2003) 
untersuchten anhand der Anzeigen für Antihypertensiva und für 
Lipidsenker in sechs spanischen Fachzeitschriften des Jahrgangs 
1997, inwieweit die angeführten Studien tatsächlich die Aussagen 
der Werbung stützten. Trotz großzügiger Bewertung (in dubio pro 
reo) zeigte sich, dass fast die Hälfte (45 von 102) der Werbeaussa- 
gen nicht durch die zitierte Studie belegt wurde. In 20 Fällen wurde 
in der Werbung ein Medikament einer Patientengruppe empfohlen, 
die sich von der in der zitierten Studie untersuchten Gruppe unter- 
schied. In 15 Fällen wurde aus einer Studie an Hochrisikogruppen 
auf Patienten mit durchschnittlichem Risiko geschlossen. In vier 
Fällen wurde das Medikament genau solchen Patienten empfohlen, 
die zuvor aus der Studie ausgeschlossen worden waren. In einem 
Fall wurde von Experimenten an Zellkulturen und tierexperimen- 


tellen Untersuchungen auf den Menschen geschlossen. In zehn Fäl- 
len wurde die Wirksamkeit übertrieben dargestellt, in neun Fällen 
wurden Risikoreduktionen behauptet, die nicht nachgewiesen wa- 
ren, und in sechs Fällen hatten die Studien überhaupt nichts mit 
dem beworbenen Produkt zu tun. Die Autoren der Untersuchung 
schließen aus ihren Ergebnissen, dass bei den bibliographischen 
Hinweisen in der Werbung erhebliche Skepsis geboten ist. 

Auch der Endverbraucher wissenschaftlicher Veröffentlichungen 
trägt dazu bei, dass er unausgewogen informiert ist. Der Endver- 
braucher liest lieber etwas über positive Ergebnisse als einen Text, 
der ihm verrät, dass irgendetwas nicht funktioniert. Er liest und zi- 
tiert am liebsten das, was seine eigene Auffassung bestätigt. Da ist 
der Forscher ganz Mensch, die beiden Autoren dieses Buches na- 
türlich eingeschlossen, wie ein unbeabsichtigter Selbstversuch 
zeigte: Beim Erarbeiten dieses Themas haben wir Publikationen, 
die die Existenz von publication bias festgestellt hatten, viel lieber 
gesehen und ernster genommen als solche, die keinen publication 
bias gefunden hatten. Als uns das auffiel, lag das gerade erwähnte 
Projekt «Gibt es publication bias in der Literatur über publication 
bias» sehr nahe. 


Modeerscheinungen in der Wissenschaft 
Durch Pausen unterbrochene Strahlentherapie von Tumoren 


In der Wissenschaft gibt es Modeerscheinungen wie in der Haute 
Couture. Dass sich die bearbeiteten Themen mit dem Wind und 
dem Geldgeber drehen, ist bekannt und zu erwarten. Erstaunlich 
ist jedoch, dass auch die erzielten Resultate saisonbedingt sind. Ein 
Beispiel dafür zeigt eine systematische Übersichtsarbeit aus der Ra- 
dio-Onkologie (Dubben et al. 2001). Im Allgemeinen erstreckt sich 
die strahlentherapeutische Behandlung von Tumoren über mehrere 
Wochen. Die Bestrahlungen werden im Allgemeinen täglich gege- 
ben, genauer gesagt fünfmal pro Woche. Zwangsläufig entstehen 
hin und wieder längere Behandlungspausen: Der Patient erscheint 


nicht, das Bestrahlungsgerät funktioniert nicht, Ostern, Weihnach- 
ten etc. Zeitweise werden Bestrahlungspausen aber auch ärztlich 
verordnet. Die Autoren untersuchten, welche Evidenz zu der Frage 
vorliegt, ob eine Bestrahlungspause von mehreren Tagen oder Wo- 
chen negative Folgen für den Behandlungserfolg hat. Hierbei stell- 
ten sie fest, dass publizierte Untersuchungen der 70er Jahre fast 
einhellig zu dem Ergebnis führten, dass sich Bestrahlungspausen 
positiv auswirken. Seit Mitte der 80er Jahre gelangten die publi- 
zierten Untersuchungen genau zum gegenteiligen Resultat (siehe 
Abbildung 25). 

Eine Kehrtwende in den Naturgesetzen ist unwahrscheinlich. 
Eher spiegelt die Grafik einen Wechsel der Mode wider. Die veröf- 
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Abbildung 25: Anteil «positiver» Publikationen über die Wirkung von 
Pausen während einer Strahlentherapie in Abhängigkeit vom Erschei- 
nungsjahr. Eine Studie wurde als « positiv» bezeichnet, wenn sie eine von 
Pausen unterbrochene Strahlentherapie als vorteilhaft gegenüber einer 
kontinuierlichen Behandlung darstellte. Gruppen von je 5 Jahren, erste 
Gruppe von 1966 bis Mitte 1972. 95 %-Vertrauensbereiche nach Binomi- 
alstatistik. Die Verringerung des Anteils mit der Zeit ist hoch signifikant 
(p<0,000002;< 1982 vs.> 1982; Chi-Quadrat-Test). 
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fentlichten Arbeiten reflektieren nicht unbedingt die Sachlage, son- 
dern zum überwiegenden Teil den so genannten main stream, die 
vorherrschende Meinung. Während früher durch Pausen unterbro- 
chene Strahlentherapien als modern und vorteilhaft galten, sind sie 
heute verpönt. Früher glaubte man, dass sich das mitbestrahlte 
Normalgewebe in einer Pause schneller erholt als der Tumor. Heut- 
zutage glaubt man das Gegenteil. Auslöser für den Umschwung ist 
möglicherweise eine viel zitierte strahlenbiologische Arbeit aus 
dem Jahre 1973, in der die Reaktion von Mäusehaut auf Strahlung 
untersucht wurde (Denekamp 1973). 

Es ist denkbar, dass Patienten durch die gegenwärtige Ächtung 
von Pausen eine nützliche Therapieoption vorenthalten wird. 
Ebenso ist es möglich, dass Patienten suboptimal behandelt wer- 
den, wenn Behandlungspausen auftreten, wie z.B. an Wochenen- 
den, an Feiertagen und bei Geräteausfall. Wegen der unausgewo- 
genen Berichterstattung in der Wissenschaft und der unzureichen- 
den Trennschärfe der durchgeführten Studien ist auch nach mehr 
als 100 Jahren Strahlentherapie der Einfluss von Behandlungsun- 
terbrechungen nicht wissenschaftlich geklärt. Nicht von der Hand 
zu weisen ist der Einwand, dass sich in den letzten Jahrzehnten die 
physikalische Bestrahlungsplanung derart gewandelt hat, dass sich 
der Einfluss der Pausen vom Vorteil zum Nachteil verkehrt haben 
könnte. Wissenschaftliche Belege dafür konnte uns jedoch noch 
niemand nennen. 


Das Negative des Positiven 
Die Folgen unausgewogener Berichterstattung in der 
Wissenschaft 


Veröffentlichungen in den medizinischen Fachzeitschriften haben 
erheblichen Einfluss auf die Behandlungskonzepte für Patienten. 
Die besprochenen Verzerrungen bewirken, dass Studien mit signi- 
fikanten Ergebnissen bevorzugt, schneller und prominenter publi- 
ziert werden und dass diese Arbeiten in Literaturrecherchen ent- 
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sprechend häufiger, früher und einfacher wieder aufgefunden wer- 
den. Daher muss davon ausgegangen werden, dass in Übersichts- 
arbeiten und Metaanalysen die Behandlungseffekte überschätzt 
werden und zum Teil Effekte gesehen werden, wo gar keine sind. 

Obwohl publication bias seit Jahrzehnten bekannt ist, werden 
seine Folgen in der wissenschaftlichen Literatur kaum berücksich- 
tigt. So zeigte eine Untersuchung über die Qualität systematischer 
Übersichtsarbeiten, dass nur bei 3 bis 7 Prozent der Metaanalysen 
der Versuch unternommen wurde zu prüfen, ob publication bias 
vorliegt (Linde et al. 1997). 

Publication bias hat auch entscheidenden Einfluss auf Leitlinien, 
die von den verschiedenen Fachgesellschaften zur Behandlung von 
Erkrankungen erstellt werden. Dies gilt selbstverständlich auch für 
evidenzbasierte Leitlinien. Publication bias ist eine der zentralen 
Schwierigkeiten der Evidenzbasierten Medizin (EBM), denn diese 
setzt zwingend voraus, dass alle Studien umfassend bzw. in gleicher 
Zugänglichkeit der Öffentlichkeit zur Verfügung stehen. Sutton 
und Mitarbeiter (2000) untersuchten alle systematischen Über- 
sichtsarbeiten in der Cochrane Database of Systematic Reviews 
(1998, issue 3). Berücksichtigt wurden alle 48 Metaanalysen mit 
mindestens 10 Studien, bei denen mindestens ein dichotomer End- 
punkt° untersucht wurde. Etwa die Hälfte der Metaanalysen war 
von publication bias betroffen. Bei vier der 48 Metaanalysen erga- 
ben sich nach Korrektur für publication bias erhebliche Änderun- 
gen bei den Schlussfolgerungen. Drei Metaanalysen mit zunächst 
signifikanten Ergebnissen waren nach der Berücksichtigung von 
publication bias nicht mehr signifikant. Eine Metaanalyse, die als 
nicht-signifikant und indifferent eingestuft worden war, stellte sich 
nach der Analyse als signifikant negativ heraus. Die Autoren 
schlussfolgern, dass die Ergebnisse der Metaanalysen in etwa 
einem Zehntel der Fälle durch publication bias erheblich beein- 
flusst werden. 

Eine wichtige Säule der Evidenzbasierten Medizin ist das Zu- 
sammentragen klinischer Ergebnisse in systematischen Übersichts- 
arbeiten und Metaanalysen. Man kann vernünftigerweise jedoch 


5 Dichotomer Endpunkt: Das Ergebnis lautet «ja» oder «nein». 
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nicht erwarten, dass eine solche Meta-Arbeit besser ist als die Stu- 
dien, die darin eingegangen sind. Mitunter reicht ein einziges faules 
Ei, um ein bis dahin aussichtsreiches Omelett komplett zu verder- 
ben. Es besteht die Gefahr, dass unwissenschaftlich erhobene posi- 
tive Ergebnisse, durch publication bias angereichert, zu einem 
dann selbstverständlich positiven Ergebnis verbacken werden und 
durch das Etikett «evidenzbasiert» bzw. «EBM» das Mäntelchen 
der Wissenschaftlichkeit erhalten. 


... es wäre doch so einfach! 
Registrierung klinischer Studien 


In der Deklaration des Weltärztebundes von Helsinki (52. General- 
versammlung des Weltärztebundes, Edinburgh, Schottland, Okto- 
ber 2000) wurde festgehalten: 


« Die Pläne aller Studien sind der Öffentlichkeit zugänglich zu 
machen.» 

«Positive, aber auch negative Ergebnisse müssen veröffentlicht 
oder der Öffentlichkeit anderweitig zugänglich gemacht wer- 
den.» 


Das bisher Dargestellte zeigt, dass die derzeit praktizierte medizi- 
nische Wissenschaft mit ethischen Grundsätzen kollidiert. Es war 
sicherlich gut gemeint: In einem Editorial (Shields 2000) kündigte 
die Zeitschrift Cancer Epidemiology, Biomarkers & Prevention an, 
dass sie eine Rubrik für negative Ergebnisse einrichten werde. Dies 
sei ein Beitrag zur Vermeidung von publication bias. Die Arbeiten 
müssten sich jedoch auf eine einzige Druckseite beschränken, und 
es werde eine vollständige und nachvollziehbare Darstellung der 
geprüften Hypothese, der Methodik - einschließlich Biometrie - 
sowie der erzielten Ergebnisse erwartet. Dieses Feigenblatt er- 
scheint so wirkungsvoll wie eine Gleichstellungsmaßnahme in 
einem patriarchalischen Land, der zufolge in Zukunft auch weib- 


Abbildung 26: Fast alles wird registriert, aber Experimente am Menschen 
nicht. 


liche Abgeordnete gewählt werden dürften, sofern sie besonders 
gut aussähen und sich mit einem Stehplatz in der hintersten Ecke 
des Plenarsaals begnügten. 

Am besten wäre es, publication bias von vornherein zu vermei- 
den. Chalmers (1990) und Dickersin (1990) schlugen vor, klinische 
Studien prospektiv zu registrieren, da die vorherige Aufnahme von 
Studien in ein Register ganz sicher unabhängig von deren zukünf- 
tigen Ergebnissen ist. Die Registrierung würde darüber hinaus das 
Auffinden publizierter Studien erleichtern (Jull et al. 2002). 

Eine denkbare Strategie wäre es, Ethikkommissionen mit einzu- 
beziehen. Diese sind ohnehin über alle Studien an Patienten unter- 
richtet, und keine kann ohne deren Genehmigung vonstatten ge- 
hen. Es wäre für diese Kommissionen relativ einfach, auf eine Re- 
gistrierung der Studien gemäß der International Standardised RCT 


Numbers zu bestehen. Die erhaltene Nummer gilt als Beweis für 
die Registrierung. Dass so etwas machbar ist, sieht man daran, 
dass in allen Ländern dieser Welt jedes noch so kleine Auto mit 
einem eindeutigen und registrierten Kennzeichen versehen ist 
(Abb. 26) und selbst Bücher eine International Standard Book 
Number (ISBN) haben. Mit der Registrierung sollte natürlich eine 
Publikationspflicht verbunden sein, und beim Publizieren müsste 
das Kennzeichen genannt werden, um Mehrfachpublikationen zu 
vermeiden bzw. kenntlich zu machen. 

Dass die A-priori-Registrierung der Studien einen entscheiden- 
den Unterschied machen kann, hat Simes (1986, 1987) gezeigt. Die 
Analyse aller veröffentlichten Studien zur Behandlung fortgeschrit- 
tener Ovarialkarzinome kommt zu dem Ergebnis, dass eine Kom- 
binationschemotherapie der Behandlung mit einem einzelnen 
Wirkstoff überlegen sei. Eine zweite Analyse jedoch, die aus- 
schließlich auf den Ergebnissen von Studien beruht, die bei ihrer 
Auflage registriert wurden, führte nicht zu diesem Ergebnis. Mög- 
licherweise war hier die im ersten Fall bestehende Unausgewogen- 
heit der Berichterstattung zugunsten positiver Ergebnisse durch die 
Registrierung reduziert worden. 


Fußball, Zufall, Sensationen 
Permutationen, Kombinationen, 
Binomialstatistik 


Lotto ist ein reines Glücksspiel. Niemand kann die Zahlen, die am 
nächsten Sonnabend gezogen werden, vorausahnen oder gar be- 
rechnen. Wer gewinnt, hat einfach nur Glück gehabt. Es gibt keine 
guten oder schlechten Lottospieler. Aber beim Toto ist es sicher an- 
ders, oder? Ausgebuffte Fußballkenner müssten doch wissen, wer 
gegen wen gewinnt. — Aber wie viele Bundesligatrainer sind Toto- 
millionäre geworden? Wer hat dank der allwöchentlich gedruckten 
Trainertipps Geld gescheffelt? In diesem Kapitel erfahren Sie mehr 
über die Fußballbundesliga, über Verwechslungsmöglichkeiten, 
Sitz(un)ordnungen und seltene Ereignisse. 


Kerzen, Kabel, Kaffeekränzchen 
Permutationen 


Letzten Sonntag habe ich die Zündkerzen in meinem Auto erneu- 
ert. Ich entfernte die vier Kabel, schraubte die alten Zündkerzen 
heraus und setzte die neuen ein. Dann musste ich nur noch die Ka- 
bel wieder anschließen, aber welches Kabel an welche Kerze? Zu 
allem Unheil fing es auch noch zu regnen an, sodass ich mich dem 
Problem erst mal am Schreibtisch zuwandte. Planloses Ausprobie- 
ren schien mir ohnehin nicht angebracht. Also listete ich alle Mög- 
lichkeiten auf, die nach dem Regenschauer durchzuchecken waren. 
Dazu nummerierte ich die Kerzen (I bis IV) und Kabel (1 bis 4) und 
machte mir folgenden Plan: 


Tabelle 14: Die 24 verschiedenen Möglichkeiten, vier Kabel an vier Zünd- 
kerzen anzuschließen 


Kerze I I MM WV I IT mM IV 
Kabel 1 2 3 4 Kabel 3- 1 2 4 
Kabel 1 2 4 3 Kabel 3 14 2 
Kabel 13 2 4 Kabel 3 2 1 4 
Kabel 1 3 4 2 Kabel 3 2 4 1 
Kabel 14 2 3 Kabel 3 4 12 
Kabel 1 4 3 2 Kabel 3 4 2 1 
Kabel 2 13 4 Kabel 4 12 3 
Kabel 2 1 4 3 Kabel 4 1 3 2 
Kabel 2 3 1 4 Kabel 4 2 13 
Kabel 2 3 4 1 Kabel 4 2 3 1 
Kabel 2 4 1 3 Kabel 4 3 12 
Kabel 2 4 3 1 Kabel 4 3 2 1 


Insgesamt ergaben sich also 24 Möglichkeiten, so genannte Permu- 
tationen. Mit der Liste vor Augen fiel mir auf, dass sich diese An- 
zahl auch anders bestimmen lässt: Für das erste Kabel habe ich vier 
Möglichkeiten, für das zweite, wenn das erste angeschlossen ist, 
nur noch drei. Bei den ersten beiden Kabeln habe ich es also bereits 
mit 4x 3 = 12 Möglichkeiten zu tun. Ist auch das zweite ange- 
schlossen, sind fürs dritte nur noch zwei Varianten denkbar und 
für das vierte schließlich nur noch eine, denn alle anderen Kerzen 
sind ja bereits belegt. Die Gesamtzahl der Möglichkeiten beträgt 
dann 4x3x2x1=24. 

Und wie fand ich heraus, welches die richtige Reihenfolge ist? 
Darauf eingerichtet, den Rest des Nachmittags unter der Motor- 
haube zuzubringen, ging ich mit meiner Liste zum Auto. Zu meiner 


Freude stellte ich dann fest, dass die Längen der Kabel genau be- 
messen waren und es jeweils nur eine einzige Möglichkeit gab, sie 
mit den Kerzen zu verbinden. Offenbar hatten die Konstrukteure 
des Fahrzeugs Leute wie mich bereits einkalkuliert. 

Am selben Nachmittag war ich noch zum Kaffeekränzchen ein- 
geladen. Kaffee, Kuchen, Schlagsahne: 3x 2 x 1 = 6 mögliche Rei- 
henfolgen, dachte ich, aber man isst und trinkt dann ja doch alles 
durcheinander. Wir waren zehn Personen, und der Gastgeber be- 
richtete stolz, er habe unter allen erdenklichen Sitzmöglichkeiten 
die optimale für diesen Personenkreis ausgewählt (damit es ja kei- 
nen Streit gäbe). - Wirklich alle erdenklichen? Durch mein nach- 
mittägliches Kabel- und Kerzenproblem gut vorbereitet, überlegte 
ich: Dem ersten Gast stehen zehn Sitzplätze zur Verfügung, dem 
zweiten dann nur noch neun; für beide zusammen gibt es also ins- 
gesamt schon 10 x 9 = 90 verschiedene Sitzordnungen an einem 
Tisch mit zehn Stühlen. Für den dritten Gast sind jetzt noch acht 
freie Plätze übrig, für den vierten dann nur noch sieben usw. usw. 
Der zehnte Besucher hat überhaupt keine Wahlmöglichkeit mehr. 
Er muss sich auf den letzten freien Stuhl setzen. Insgesamt gibt es 
also 10x9x8x7x6x5x4x3x2x1=3628800 mögliche Sitz- 
ordnungen. Ich kann mir bis heute nicht vorstellen, wie der Gast- 
geber die alle im Geiste durchgegangen ist. 

Die Anzahl der Möglichkeiten, etwas in eine Reihenfolge zu 
bringen, nennt man auch Permutationen. Für die obigen Berech- 
nungen der Permutationen gibt es die Kurzschreibweisen 


10!=10xI9x8x7x6x5x4x3x2%x1=3628800 
4!=4x3x2x1=24 


die «zehn-Fakultät» beziehungsweise « vier-Fakultät» ausgespro- 
chen werden. Diese Fakultätfunktion findet man übrigens auf vie- 
len Taschenrechnern.! 


1 Dies ist die bei der Darstellung der Poisson-Formel im Kapitel «Wir ba- 
cken uns eine Schlagzeile» (Fußnote auf Seite 30) versprochene Erklärung 
von «x!». Es gilt übrigens 0! = 1. 
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Das Fußballstadion als Rouletteschüssel 
Interpretation eines Spielergebnisses 


Ich bin Pauli-Fan. Heute haben wir verloren. 0 zu 2 gegen den 
HSV. Meine Kollegen sind alle HSV-Fans. Und morgen beim Mit- 
tagessen heißt es dann wieder: «Die bessere Mannschaft gewinnt 
eben!» — Aber diesmal gibt es Gegendruck. Mit harten wissen- 
schaftlichen Argumenten werde ich diesen Unsinn widerlegen: Das 
Ergebnis ist statistisch nicht signifikant! 

Nehmen wir mal an, dass beide Mannschaften genau gleich 
stark sind. Bis zum Schlusspfiff fallen insgesamt zwei Tore. Damit 
sind folgende mögliche Spielverläufe denkbar: 


1. Der HSV schieftt das erste und das zweite Tor (2 zu 0). 

2. Der HSV schießt das erste und St. Pauli das zweite Tor (1 zu 1). 
3. St. Pauli schießt das erste und der HSV das zweite Tor (1 zu 1). 
4. St. Pauli schießt das erste und das zweite Tor (0 zu 2). 


Weitere Varianten gibt es nicht. Da wir ja angenommen haben, 
beide Mannschaften seien gleich stark, ist die Wahrscheinlichkeit, 
dass der HSV das erste Tor schießt, ebenso groß wie die Wahr- 
scheinlichkeit, dass dies St. Pauli gelingt, nämlich genau 50 Pro- 
zent. Das Gleiche gilt für das zweite Tor. Wieder beträgt die Wahr- 
scheinlichkeit, es zu erzielen, für beide Mannschaften jeweils genau 
50 Prozent. 

Für den ersten oben angeführten möglichen Spielverlauf, näm- 
lich dass der HSV 2 zu 0 gewinnt, ergibt sich somit folgende Wahr- 
scheinlichkeit: 


Wahrscheinlichkeit, dass der HSV das erste Tor schießt 
(50 Prozent = 0,5) 
multipliziert mit 
Wahrscheinlichkeit, dass der HSV das zweite Tor schießt 
(50 Prozent = 0,5) 
Ergebnis: 0,5 x 0,5 = 0,25 oder 25 Prozent 
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Für die anderen drei Varianten besteht ebenfalls jeweils eine Chance 
von 25 Prozent. Zusammen erhalten wir also 4x 25 = 100 Prozent, 
und so muss es ja auch sein, denn eines dieser vier Ergebnisse tritt 
bei einem Spiel mit insgesamt zwei Toren auf jeden Fall ein. 

Die zweite und die dritte Möglichkeit liefern jeweils denselben 
Schlussstand, nämlich 1 zu 1. Zu diesem Ergebnis wird es also mit 
25 + 25 = 50-prozentiger Sicherheit kommen. Zusammenfassend 
erhalten wir: 


Tabelle 15: Fußballergebnisse aus statistischer Sicht. Wenn man annimmt, 
dass zwei Mannschaften genau gleich gut spielen und bei einer Begeg- 
nung zwei Tore fallen, dann ergeben sich für die verschiedenen möglichen 
Resultate folgende Wahrscheinlichkeiten: 


Ergebnis Wahrscheinlichkeit 
2:0 25% 
11 50% 
0:2 25% 


Es muss also keineswegs bei gleich starken Mannschaften jedes 
Spiel mit insgesamt zwei Toren 1 zu 1 ausgehen. Dies ist mit 
50-prozentiger Wahrscheinlichkeit der Fall. Dass mein Verein mit 
0 zu 2 verliert, obwohl er genauso gut spielt wie der HSV, ist zwar 
weniger wahrscheinlich (25 Prozent), aber damit noch lange nicht 
statistisch signifikant.? 

Erst wenn die Wahrscheinlichkeit für ein Ergebnis 5 Prozent 
oder weniger beträgt, ist es statistisch signifikant. Ein signifikantes 
Ergebnis wird aber erst bei 6 zu 0 Toren erreicht! Die Begründung 
dafür liefern wir im nächsten Abschnitt. 


2 Diese Aussage darf man nicht mit einer Vorhersage eines Q-zu-2-Ergeb- 
nisses verwechseln. Vor dem Spiel weif® man ja nicht, wie viele Tore insge- 
samt fallen werden. Für eine Prognose muss daher auch die Wahrschein- 
lichkeitsverteilung der Anzahl der Tore pro Spiel bekannt sein. 
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Tischfußbeall 


Kombinationen 


Die verschiedenen Spielergebnisse zweier exakt gleich starker Fuß- 
ballmannschaften können wir mit dem Werfen von Münzen simu- 
lieren und daraus die Wahrscheinlichkeiten der Ergebnisse ermit- 
teln. Die Chance, dass «Kopf» oder «Zahl » fällt, beträgt jeweils 50 
Prozent. Bei jedem unserer Fußballspiele werden insgesamt sechs 
Tore erzielt, das heißt, wir werfen die Münze pro simuliertem 
Match sechsmal. Kopf bedeutet ein Tor für den HSV, Zahl ein Tor 
für St. Pauli. Je nachdem, ob Kopf (Kreuz) oder Zahl (Kreis) ge- 
winnt, tragen wir in die abgebildeten vierzig Reihen von je sechs 


Tabelle 16: Münzwurfsimulation eines Fußballspiels, in dem sechs Tore 
fallen 
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Tabelle 17: Auswertung des simulierten Fußballspiels 


Anzahl der 
Kreuze pro 
Sechsergruppe 


0 Fe, 6:0 
| FREE HERE 5:1 
III 4:2 
III ek 3:3 
I 2:4 
I ’ 1:5 

0:6 


Unsere Ihre Simuliertes 
Strichliste Strichliste Spielergebnis 


av rwn 


Quadraten nach und nach Kreuze beziehungsweise Kreise ein 
(schneller geht’s mit einem Würfel: An die Stelle von «Kopf oder 
Zahl» treten dann «gerade oder ungerade Augenzahl»). 

Nach dieser Fleißarbeit wird die Anzahl der Kreuze für jede 
Reihe einzeln ausgezählt und rechts davon notiert. Um festzustel- 
len, wie viele Sechsergruppen kein Kreuz, ein Kreuz usw. enthalten, 
erstellen wir anschließend die oben stehende Liste (Tabelle 17) und 
machen jeweils einen Strich in der entsprechenden Zeile. 

Obwohl Sie so fleißig Münzen geworfen haben, ist die Stich- 
probe eigentlich noch zu klein, um die Verteilung wirklich genau 
bestimmen zu können. Hierfür müssten Sie etwa tausend Reihen 
zu sechs Versuchen ausfüllen. Dennoch wird sich in den meisten 
Fällen sehr deutlich zeigen, dass drei Kreuze und drei Kreise, also 
ein Schlussstand von 3 zu 3, erheblich häufiger vorkommen als 
sechs Kreuze beziehungsweise sechs Kreise, also ein 6-zu-0- bezie- 
hungsweise 0-zu-6-Ergebnis. Dabei sollte das doch eigentlich egal 
sein, denn die Wahrscheinlichkeit sowohl für Kreuze als auch für 
Kreise ist doch gleich, nämlich jeweils 50 Prozent! Oder? 

Das Geheimnis liegt darin, dass jede beliebige Reihenfolge von 
Kreuzen und Kreisen gleich wahrscheinlich ist. Zur Veranschau- 
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OOX000 VOX00X VOXXXO OXXXOX KXXOXX 
OO00X00 000XXO 0O0OXXOX OXXOXX XXOXXX 
0000X0 000X0X OOXOXX OXOXXX KOXXXX 
000000 00000X 0000XX OOOXXX OOXXXX OXXXXX XXXXXX 


0:6 1:5 2:4 3:3 4:2 5:1 6:0 


Abbildung 27: Liste aller Sechserkombinationen 


lichung haben wir alle 64 Möglichkeiten ? aufgelistet (Abbildung 
27). 

Es zeigt sich, dass es nur eine einzige Reihenfolge (mathema- 
tisch: Kombination *) für sechs Kreuze gibt, aber zwanzig verschie- 


3 Allgemein kann man die Anzahl der möglichen Reihenfolgen für ein 
Spiel mit n Toren mit Hilfe der Formel 2" berechnen. So ist 2°=2x2x2x 


2x2x2=64. 
4 Die Anzahl der Kombinationen von k Elementen (das sind die Tore des 


HSV) aus einer Menge mit n Elementen (das sind die sechs Tore, die insge- 
samt gefallen sind) ist gegeben durch: 


Anzahl der 4 k) n! 


Kombinationen 


Den Ausdruck in der großen Klammer spricht man «n über k» aus. Das ist 
lediglich eine Abkürzung für den rechten Teil der Gleichung, der zunächst 
kompliziert aussieht, aber in der Anwendung letztlich sehr einfach ist. 
Auch ist relativ leicht nachvollziehbar, wie diese Formel zustande kommt. 
Zunächst einmal steht im Zähler n!. Das ist die Anzahl der Permutationen. 
Wenn wir daraus eine bestimmte Anzahl von k Elementen auswählen, auf 
deren Reihenfolge es nicht ankommt, dann müssen wir durch die Anzahl 
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Tabelle 18: Signitikante Sportergebnisse. Angegeben ist die Anzahl der 
Ereignisse (Fehler, Tore, Körbe) und nicht die damit erhaltenen Punkte. Je- 
weils extremere Verhältnisse sind natürlich auch signifikant, mit 18 zu 7 
zum Beispiel auch 19 zu 7 und 18 zu 6. 


Anzahl der Signifikante Quotient Differenz 
Ereignisse Verhältnisse 
6 6:0 © 6 
9 8:1 8 7 
12 10:2 5 8 
15 12:3 4 9 
17 13:4 3,25 9 
20 15:5 3 10 
25 18:7 2,6 11 
30 219 2,3 12 
40 27:13 2,1 14 
50 33317 1,94 16 
60 39:21 1,86 18 
70 44:26 1,69 18 
80 50:30 1,67 20 
90 55:35 1,97 20 
100 61:39 1,56 22 
200 115:85 1,35 30 


dene für drei Kreuze und drei Kreise. Da alle diese Folgen gleich 
wahrscheinlich sind, kommen (im Durchschnitt) drei Kreuze und 
drei Kreise zwanzigmal häufiger vor als sechs Kreuze. Von den 64 


der Permutationen dieser ausgewählten Elemente dividieren, also durch 
k!. Dasselbe gilt für die nicht ausgewählten (n — k) Elemente, und entspre- 
chend ist (nk)! der Teiler. 

Wie groß ist die Chance, beim Lotto sechs Richtige zu tippen? 

Es gibt 491/(61x 431)= (49x 48x 47x46 X AS RX AA) EX FXAXI3K2) 
= 13983 816 Möglichkeiten für sechs aus 49. Die Gewinnchance beträgt 
also etwa 1 zu 14 Millionen. 
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möglichen Spielergebnissen stellen die sechs Kreuze und die sechs 
Kreise nur zwei Fälle dar. Da 2/64 = 0,031 oder 3,1 Prozent kleiner 
als 5 Prozent ist, sind die Ergebnisse 6 zu 0 beziehungsweise 0 zu 6 
statistisch signifikant. 

Für ein statistisch signifikantes Ergebnis müsste man daher min- 
destens sechs Tore abwarten. Ist der Stand dann 6 zu 0, wäre das 
Spiel entschieden. Gelingt es der schwächeren Mannschaft jedoch, 
einen Gegentreffer zu erzielen, muss man warten, bis insgesamt 
neun Tore gefallen sind, denn erst bei einem Spielstand von 8 zu 1 
ist das Ergebnis wieder signifikant und, wenn es zu zwei Gegentref- 
fern kommen sollte, gar erst bei 10 zu 2. Damit auch Tischtennis- 
spieler, Handballer und Basketballfreunde die Signifikanz ihrer 
Spiele einschätzen können, haben wir die Tabelle 18 angelegt. Je 
nach Gesamtzahl der Treffer muss sich die überlegene Partei einen 
gehörigen Vorsprung erarbeiten, damit der Sieg auch von Statis- 
tikern anerkannt wird. Dabei wächst die absolute Tordifferenz 
stetig, während das erforderliche Torverhältnis (Quotient) immer 
geringer wird. 

Es ist offenbar überhaupt nicht praktikabel, so lange zu spielen, 
bis eine Begegnung signifikant entschieden ist. 


Die Bundesliga 
Vierfeldertest im Fußball 


Ich glaube, dass der Tabellenerste 
jederzeit den Spitzenreiter schlagen kann. 
Berti Vogts 


In der Fußballbundesliga wird Jahr für Jahr der Deutsche Meister 
bestimmt. In jeder Saison treten alle Mannschaften zweimal gegen- 
einander an. Da in der Bundesliga achtzehn Vereine spielen, sind 
dies für jeden von ihnen 34 Begegnungen.? Bei so vielen Spielen las- 
sen sich auch dann statistisch signifikante Ergebnisse erzielen, 
wenn nicht jedes einzelne signifikant ist. Unserer Forderung, dass 


5 Jeder Verein spielt gegen die siebzehn anderen Vereine zwei Spiele. 
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Tabelle 19: Tabelle der Deutschen Fußballbundesliga nach Ende der Sai- 
son 1995 / 96 


Verein EWR nueut ver Punkte 
nen schieden loren 

Borussia Dortmund 19 11 4 68 
Bayern München 19 5 10 62 
Schalke 04 14 14 6 56 
Borussia Mönchen- 

gladbach 15 8 11 53 
Hamburger SV 12 14 8 50 
FC Hansa Rostock 13 10 11 49 
Karlsruher SC 12 12 10 48 
TSV München 1860 11 12 11 45 
Werder Bremen 10 14 10 44 
VfB Stuttgart 10 13 11 43 
SC Freiburg 11 9 14 42 
1. FC Köln 9 13 12 40 
Fortuna Düsseldorf 8 16 10 40 
Bayer 04 Leverkusen 8 14 12 38 
FC St. Pauli 9 11 14 38 
1. FC Kaiserslautern 6 18 10 36 
Eintracht Frankfurt 7 11 16 32 
KFC Uerdingen 5 11 18 26 


medizinisch-wissenschaftliche Ergebnisse durch Reproduzieren 
überprüft werden müssen, entspricht die Bundesliga zumindest 
tendenziell. Tabelle 19 zeigt den Schlussstand der Bundesliga im 
Mai 1996, als Borussia Dortmund den Titel errang. 

Für jedes gewonnene Spiel gibt es drei Punkte und für ein Unent- 
schieden einen Punkt. Diese Regeln sind jedoch recht willkürlich. 
Früher gab es für einen Sieg lediglich zwei Punkte. Um offensiven 
Fußball zu fördern und Null-zu-null-Strategen auszubremsen, 
wurde die Siegpunktzahl von zwei auf drei erhöht. 

Diese Überlegungen, die den Fußball für die Zuschauer spannen- 
der gestalten und damit auch die Einnahmen erhöhen sollen, müs- 
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sen wir außer Acht lassen. Für statistische Erwägungen fällt nur die 
Anzahl der gewonnenen beziehungsweise verlorenen Spiele ins Ge- 
wicht. Bei den folgenden Betrachtungen zählen wir Begegnungen, 
die unentschieden enden, als halb gewonnen und halb verloren. 

Mit Hilfe des Vierfeldertests (Seite 52ff.) können wir nun fest- 
stellen, welche Ergebnisse sich statistisch signifikant unterschei- 
den. Die brennendste aller Fragen lautet natürlich: Hat der Deut- 
sche Meister Borussia Dortmund statistisch signifikant besser als 
Bayern München gespielt? -— Die Antwort ist: Nein. Schließlich 
hätte sich die Reihenfolge in der Tabelle mit einer Wahrscheinlich- 
keit von 44 Prozent auch dann ergeben, wenn beide Vereine gleich 
gut sind.° Die Mannschaft von Borussia Dortmund hat also eine 
gute Portion Glück gehabt, als sie den Meistertitel errang. 

Von besonderer Bedeutung nicht nur für die Hamburger Szene 
ist die Feststellung, dass die Rangfolge von HSV und FC St. Pauli in 
der Bundesligatabelle von 1995/96 nicht allein durch Fußballkön- 
nen zustande gekommen ist. Mit einer Wahrscheinlichkeit von 28 
Prozent steht der HSV in der Tabelle vor St. Pauli, auch wenn er 
keinen Deut besser spielt.’ 


6 Gewonnen Verloren Summe 
Borussia Dortmund 24,5 9,5 34 
Bayern München 21,5 12,5 34 
Summe 46,0 22,0 68 
y2 = 67 x (24,5 x 12,5 — 21,5 x 9,5)? = 0,60 < 3,84 
46 x22x 34x34 


Daraus ergibt sich ein Fehler erster Art von 44 Prozent (p-Wert = 0,44; An- 
hang IV). 


7 Gewonnen Verloren Summe 
HSV 19 15: 34 
FC St. Pauli 14,5 19,5 34 
Summe 3353: 34,5 68 
y2 = 67 x (19,5 x 19 - 15 x 14,5)? - 1172384, 
33,5 x 34,5 x 34 x 34 


Daraus ergibt sich ein Fehler erster Art von 28 Prozent (p-Wert = 0,28; 
Anhang IV). 
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Auf der Suche nach einem signifikanten Bundesligaergebnis 
mussten wir den Deutschen Meister Borussia Dortmund gegen den 
Tabellenzehnten VfB Stuttgart im Vierfeldertest antreten lassen.® 
Der ergibt einen p-Wert von 0,049. Der Tabellenerste ist dem 
Tabellenzehnten damit statistisch signifikant überlegen. 

In Anbetracht solcher Berechnungen wird deutlich, warum es in 
der Bundesliga immer wieder zu «Überraschungen » kommt und es 
Abstiegskandidaten gelingt, den jeweils aktuellen Spitzenreiter zu 
schlagen. Aber auch wenn der Unterschied zwischen den Vereinen 
in der Bundesligatabelle statistisch signifikant ist, kann es zu einem 
unerwarteten Sieg eines Außenseiters kommen. 

So geschah es am 4. November 1996: Nach der damals aktuellen 
Bundesligatabelle der Saison 1996/97 spielte der VfB Stuttgart si- 
gnifikant besser als der FC St. Pauli. Trotzdem gelang den in der 
Abstiegszone kämpfenden St. Paulianern ein 2-zu-1-Sieg über den 
Spitzenreiter. Die Sportpresse feierte diesen Erfolg als große Über- 
raschung. Aber war es das wirklich? Der Endstand von 2 zu 1 sagt 
(statistisch gesehen) nur wenig über die spielerische Leistung der 
beiden Vereine an diesem Novembertag aus. Selbst wenn man an- 
nimmt, dass der VfB im Allgemeinen doppelt so gut spielt wie 
St. Pauli, ist dieser Sieg gar nicht so unwahrscheinlich. Vor der er- 
wähnten Begegnung war das Torverhältnis beim VfB 33 zu 10, das 
heißt, 77 Prozent der gefallenen 43 Tore waren vom VfB geschos- 
sen worden. Beim FC St. Pauli betrug es dagegen 16 zu 26; auf sein 
Konto gingen also lediglich 38 Prozent der 42 in seiner Gegenwart 
erzielten Tore. Das Verhältnis 77 Prozent zu 38 Prozent = 2 besagt, 
dass der VfB insgesamt etwa «doppelt so gut spielt» wie St. Pauli. 


8 Gewonnen Verloren Summe 
Borussia Dortmund 24,5 9,5 34 
VfB Stuttgart 16,5 17,5 34 
Summe 41,0 27,0 68 
x x —_ x 2 
y2 = 67 x (24,5 x 17,5 — 16,5 x 9,5) -487..384, 


41x 27x34 x 34 


Daraus ergibt sich ein Fehler erster Art von 4,9 Prozent (p-Wert = 0,049; 
Anhang IV). 
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In der nachstehenden Tabelle finden Sie die aus dieser Annahme 
resultierenden Wahrscheinlichkeiten für alle Spielergebnisse mit 
insgesamt drei Treffern. Ein gefallenes Tor ist mit einer Wahr- 
scheinlichkeit von 33 Prozent (= 0,33) ein St.-Pauli-Tor und mit 
einer Wahrscheinlichkeit von 67 Prozent (= 0,67) ein Treffer des 
VfB Stuttgart. 


Tabelle 20: Statistische Auswertung des Fußballspiels VfB Stuttgart gegen 
1. FC St. Pauli am 4. November 1996 


Spiel- Anzahl der Wahrscheinlichkeit a 

“ Kr Kombinatio- für Tore ar 5 lich 
8 nen VfB Stuttgart St. Pauli Lk IE 

eıt 

0:3 1 x 0,67° x 0,33 = 36% 

1:2 3 x 0,67! x 0,33? = 21,9% 

21 3 x 0,67? x 0,33! = 44,4% 

3:0 1 x 0,67? x 0,33° = 30,1% 


Entsprechend der Annahme, dass der VfB doppelt so gut spielt, ist 
ein 2-zu-1-Sieg für Stuttgart das wahrscheinlichste und damit am 
wenigsten erstaunliche Spielergebnis. Der «überraschende» Sieg 
des FC St. Pauli war aber so verblüffend nicht. Denn mit einer 
Wahrscheinlichkeit von immerhin 21,9 Prozent war das 1-zu-2- 
Ergebnis zugunsten von St. Pauli zu erwarten. 

Amüsant finden wir immer wieder die Kommentare der Sport- 
journalisten zu solchen « Überraschungsergebnissen ». Für den un- 
erwarteten Sieg gibt es immer einen «sachlichen» Grund: das 
Stimmungstief in der Mannschaft, die falschen Stollen des VfB, das 
Matschwetter, das natürlich St. Pauli begünstigte. Die kennen ja 
nichts anderes aus Hamburg, wie man am 24. 1. 2006 gesehen hat, 
als Drittligist St. Pauli dem Champions-League-Teilnehmer Werder 
Bremen mit 3:1 eine Abfuhr erteilte. Schuld war der Schnee. 

Derartige Begründungsversuche kommen uns sehr bekannt vor. 
Auch in den wissenschaftlichen Publikationen werden ellenlange 
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Erklärungen für Resultate geliefert, die sehr gut auch rein zufällig 
aufgetreten sein können. In einem späteren Kapitel werden wir uns 
mit diesen «wissenschaftlichen» Erklärungen ausführlicher aus- 
einander setzen. 

Bitte nehmen Sie diesen Ausflug in den Sport nicht allzu ernst. 
Die Vergleiche hinken bisweilen ein wenig, und die Angabe von 
Torwahrscheinlichkeiten ist ebenfalls sehr verwegen. Die Leis- 
tung einer Mannschaft hängt natürlich auch davon ab, ob sie auf 
dem «heimischen Rasen» spielt oder ob sie gerade in Führung 
ist. 


Den Letzten beißen die Hunde 
Binomialverteilung light 


Sport fördert die Gesundheit, aber auch die Medizin trägt dazu bei. 
Deshalb wenden wir uns jetzt der Abteilung für Herzchirurgie ei- 
nes Krankenhauses zu. Deren neuer Chef hat sich das ehrgeizige 
Ziel gesetzt, in seiner Abteilung die niedrigste Mortalitätsrate für 
Bypass-Notoperationen in Deutschland zu erreichen, die zurzeit 
etwa 15 Prozent beträgt. Deshalb testet er zunächst einmal die ihm 
unterstellten Ärzte ohne deren Wissen. Er sorgt dafür, dass jeder 
der acht Chirurgen in den ersten Wochen nach seinem Amtsantritt 
zehn Bypass-Notoperationen durchführt, und protokolliert die 
Ergebnisse. Bei einem gab es keinen einzigen Todesfall, bei vier 
Ärzten einen, bei zweien starben zwei Patienten und bei einem 
sogar vier. 

Der neue Chef ernennt den ersten Arzt zum leitenden Oberarzt. 
Den letzten nimmt er beiseite und erklärt ihm, eine Mortalitätsrate 
von 40 Prozent sei mehr als doppelt so hoch wie der Durchschnitt 
und könne nicht geduldet werden. Er legt ihm nahe, zu gehen 
und sich einen anderen Job zu suchen, da er offenbar zum Herz- 
chirurgen nicht tauge. Der betreffende Arzt gibt seine Stelle nicht 
freiwillig auf, ihm wird gekündigt, er wehrt sich und schaltet 
einen Anwalt ein. 
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Tabelle 21: Verteilung der Todeställe bei Bypass-Notoperationen 


Anzahl der Todesfälle pro Arzt 


bei zehn Bypass-Notoperationen Auzabl detätzte 
0 1 
1 4 
2 2 
3 0 
4 1 


Wie dieser erfundene Fall? juristisch ausgehen würde, entzieht sich 
mal wieder unserer Kenntnis. Trotzdem können wir einen Kom- 
mentar dazu abgeben, und der lautet: Was der Chefarzt mit seinen 
Kollegen praktiziert, wird seine Abteilung nicht voranbringen. 

Das zur sachlichen Beurteilung des geschilderten «Tests» er- 
forderliche Werkzeug heißt «Binomialverteilung». Im nächsten 
Abschnitt finden Sie dazu eine ausführliche Darstellung. Doch 
zunächst machen wir ein kleines Experiment mit bunten Schoko- 
linsen, das es ermöglicht, einzuschätzen, ob die Entlassung des 
Arztes gerechtfertigt ist. 

Für den Versuch benötigen Sie eine Familienpackung bunter 
smarter Schokolinsen. Geben Sie sie in ein großes Gefäß, und ent- 
nehmen Sie diesem Vorrat mit geschlossenen Augen zehn Stück. 
Bei unserer Packung war etwa ein Siebtel der Linsen rot (das heißt 
rund 15 Prozent, wie die Mortalitätsrate bei den Bypass-Not- 
operationen). Jeder Patient wird in diesem Versuch durch eine 


9 Das Beispiel ist ausgedacht. Während der Fertigstellung dieses Buches 
wurde unsere Phantasie von der Realität überholt. Das British Medical 
Journal (314; 1997, S. 73f.) berichtet, dass das New York State Depart- 
ment of Health ein Gesetz erlassen hat, in dem die Mortalitätsraten mit 
Namensnennung der jeweiligen Chirurgen veröffentlicht werden müssen. 
Es wird zu Recht beklagt, dass die sich ergebende Qualitätsrangfolge der 
Chirurgen, zum Beispiel bei Bypass-Operationen, mit sehr großer statisti- 
scher Unsicherheit behaftet ist, weil die ermittelten Mortalitätsraten auf zu 
kleinen Zahlen beruhen. 
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Schokolinse dargestellt. Die roten symbolisieren die Fehlschläge 
der Operation. Am besten verwenden Sie die folgende Strichliste. 
Wenn unter Ihren Schokolinsen beispielsweise zwei rote sind, 
machen Sie bei «2» einen Strich. Sollten Sie nicht gerade eine 
Mega-Familienpackung gekauft haben, müssen Sie die herausge- 
nommenen Schokos, auch wenn es schwer fällt, leider wieder zu- 
rücklegen und gut untermischen. Jetzt entnehmen Sie wieder zehn 
Linsen und notieren die Anzahl der roten Exemplare. Das Ganze 
wiederholen Sie bitte fünfundzwanzigmal. 

Es wird Sie sicher nicht wundern, dass Sie nicht jedes Mal die- 
selbe Anzahl roter Linsen gezogen haben. Falls in Ihrer Packung 
der Anteil roter Linsen ebenfalls etwa ein Siebtel ist, dann wird das 
dabei entstehende Bild wahrscheinlich dem Histogramm in Tabelle 
22 ähneln. 


Tabelle 22: Schokolinsensimulation der Ergebnisse von Bypass-Notopera- 
tionen 


Anzahl roter Ihre Unsere Erwarteter Anteil 
Linsen unter Strich-  Strich- bei 15% 
zehn gezogenen liste liste roten Linsen 
0 IN 19,7 
1 er || ||| 34,7 
2 INN 27,6 
3 —— zoll 13,0 
4 EN, 4,01 
5 0,849 
6 0,125 
T 0,0126 5,00% 
8 0,000833 
9 0,0000327 
10 0,000000577 


Die rechte Spalte gibt die erwartete Häufigkeit in Prozent an, wie 
man sie mit Hilfe der Binomialverteilung berechnen kann. Im 
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Durchschnitt erwarten wir also in 19,7 Prozent der Ziehungen 
(also in jeder fünften) keine einzige rote Schokolinse, während wir 
in 34,7 Prozent mit einer rechnen können usw. Vier oder sogar 
noch mehr rote Schokolinsen erhalten wir in rund 5 Prozent der 
Fälle, also etwa bei jedem zwanzigsten Versuch. 

Zurück zu unserem gekündigten Arzt. Umgedeutet zeigt das 
Schokolinsen-Experiment, dass seine vier Fehlschläge auch Zufall 
gewesen sein könnten. Wenn man annimmt, dass alle acht Ärzte 
exakt gleich gut operieren (so wie wir jedes Mal gleich gut zehn 
Schokolinsen ziehen), und die Anzahl der überprüften Ärzte be- 
rücksichtigt, dann wird es bei jeder dritten Untersuchung dieser 
Art mindestens einen Fall geben, bei dem es zu vier oder mehr Fehl- 
schlägen kommt. !” 

Die Strategie des Chefarztes entspricht dem Vorgehen eines den 
Autoren recht gut bekannten zehnjährigen Jungen, der im Spiel- 
zeuggeschäft alle verfügbaren Würfel dreimal warf und dann die 
beiden kaufte, die jedes Mal eine Sechs ergeben hatten. Später ent- 
puppten sich seine «Zauberwürfel» als völlig normal. 


Der zarteste Versuch, seit es Schokolade gibt 
Binomialverteilung heavy 


Wir werden unser Schokolinsen-Experiment jetzt verallgemeinern. 
Sie können diesen Abschnitt überspringen, falls die Formeln Sie ab- 
schrecken. 

Wie groß ist die Wahrscheinlichkeit, bei Entnahme von n Scho- 


10 Die Wahrscheinlichkeit für null oder einen oder zwei oder drei Fehl- 
schläge beträgt (entsprechend Tabelle 22) 0,197 + 0,347 + 0,276 + 0,130 = 
0,95. Die Wahrscheinlichkeit für vier oder mehr Fehlschläge liegt damit bei 
1- 0,95 = 0,05. Das ist das Risiko des einzelnen Chirurgen. Der Chef hat 
aber acht getestet. Die Wahrscheinlichkeit, dass alle acht Chirurgen drei 
oder weniger Fehlschläge verzeichnen, beträgt 0,95* = 0,66. Also ist die 
Wahrscheinlichkeit, dass mindestens einer vier oder mehr Fehlschläge auf- 
weist, 1 - 0,66 = 0,34 oder 34 Prozent. 
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kolinsen aus einem Topf mit (unendlich) vielen roten und anders- 
farbigen Linsen eine bestimmte Anzahl roter zu ziehen? Diese tro- 
ckene Frage kann ganz allgemein beantwortet werden. Die Antwort 
gibt eine mathematische Formel mit dem Namen «Binomialvertei- 
lung». Der Anteil der roten Linsen und damit die Wahrscheinlich- 
keit, eine solche zu ziehen, wird mit p bezeichnet. Die Wahrschein- 
lichkeit, an eine andersfarbige zu geraten, ist dann 1-p. 

Ohne hinzusehen, werden n = 5 Schokolinsen entnommen. Wie 
groß ist die Wahrscheinlichkeit, dass zwei rot und die übrigen an- 
dersfarbig sind? Dazu werden die Einzelwahrscheinlichkeiten mul- 
tipliziert: 


pxpx(1-p)x(1-p)«(1-p)= p’x(1-p)? 
Wenn 15 Prozent der Linsen rot sind (p = 0,15), erhält man 
(0,15)? x (0,85)? = 0,0138 


für die Wahrscheinlichkeit, zwei rote und drei andersfarbige zu zie- 
hen. Aus dem Abschnitt «Tischfußball» wissen wir, dass es dafür 


Nds 
k 2 31x 2! 


Möglichkeiten gibt. Daraus folgt, dass die Wahrscheinlichkeit für 
zwei rote und drei andersfarbige Schokolinsen in einer beliebigen 
Reihenfolge 


10 x 0,0138 = 0,138 oder 13,8 Prozent 


beträgt. Ganz allgemein ergibt sich folgende Gleichung, eben die 
Binomialverteilung: 


P(n,k) = xpkx(1- p)"-k 


Dabei ist p der Anteil roter Schokolinsen, n die Gesamtzahl der ge- 
zogenen Linsen, k die Anzahl der gezogenen roten und P(n,k) die 
Wahrscheinlichkeit, dass sich unter n Schokolinsen k rote befinden. 
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Die Wahrscheinlichkeit, dass genau eine von zehn gezogenen 
Schokolinsen rot ist, beträgt 


19! „0,15 x 0,859 = 0,347 oder 34,7 Prozent 
1! 


He 5 


P(10,1) = (Dos x(1-0,15)10-1 = 
Wenn jemand aus einem Topf verschiedenfarbiger Schokolinsen auf 
Anhieb zehn rote herausgreift, dann liegt es nahe, dass er geschum- 
melt hat. Intuitiv ist klar, dass zehn rote extrem unwahrscheinlich 
sind, wenn auch nicht unmöglich. Mit der obigen Formel kann die 
Wahrscheinlichkeit berechnet werden (n = 10, k = 10, p = 0,15): 


p(10,10) = [10] x 0,1510 x (1 -0,15)10-10._10! _ „ 0,1510 x 0,850 = 1x 0,1510 x1 
10 10! x 0! 


= 5,8 x 10° = 1/170000000. 


In Worten: Wenn der Anteil der roten Schokolinsen 15 Prozent be- 
trägt, dann ist die Wahrscheinlichkeit, dass alle zehn entnomme- 
nen Linsen rot sind, etwa zwölfmal geringer als sechs Richtige im 
Lotto. 

Wer zehn rote Schokolinsen herausgreift, hat nach irdischem Er- 
messen geschummelt, oder sie stammen aus einer anderen Grund- 
gesamtheit, das heißt aus einer Spezialpackung, die einen sehr ho- 
hen Anteil roter Linsen enthält. Auf den Vergleich von Therapien 
oder Ähnliches angewandt, bedeutet dies, dass sich die Zehn-rote- 
Schokolinsen-Therapie grundsätzlich von den anderen unterschei- 
det und sie zu einer echten Erhöhung der Quote führt. Die Mög- 
lichkeit, dass die Erhöhung zufällig ist, würden wir schon rein in- 
tuitiv verwerfen. Allerdings verlässt uns die Intuition, wenn auf 
Anhieb nur sechs oder fünf rote Schokolinsen gezogen werden. Da 
hilft nur nachrechnen, zum Beispiel mit dem Vierfeldertest. 
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Keine Schwalbe macht noch keinen Herbst 
Statistik seltener Ereignisse 


Nach dem hoffentlich missglückten Versuch, seinen «schlechtes- 
ten» Herzchirurgen vor die Tür zu setzen, widmet sich der (ausge- 
dachte) neue Chef der Entwicklung einer neuen Technik für By- 
pass-Operationen in ausgewählten Fällen. Im Gegensatz zu den 
Notfalloperationen ist das Mortalitätsrisiko bei geplanten Herz- 
operationen ohnehin deutlich geringer, es beträgt etwa 2 Prozent. 
Die neue Technik wird an einhundert Patienten ausprobiert, und 
erfreulicherweise ist kein einziger Todesfall zu beklagen. Der Chef- 
arzt wendet sich stolz an die Öffentlichkeit und fordert bei einer 
viel besuchten Pressekonferenz, dass dieses neue Verfahren nun in 
allen Kliniken eingeführt werden müsse, da es nachweislich besser 
sei als das alte, an Zigtausenden von Patienten erprobte Verfahren. 
Stimmen Sie ihm zu? 

Es gibt mehrere Möglichkeiten, diese Frage sachlich zu entschei- 
den. Einerseits können wir wieder wie im obigen Beispiel die Bino- 
mialverteilung einsetzen. Die Wahrscheinlichkeit, dass bei einer 
Fehlschlagquote von 2 Prozent in einhundert aufeinander folgen- 
den Fällen kein einziger Todesfall auftritt, beträgt dann 13 Pro- 
zent.!! Bei einem so hohen Wert kann es sich auch gut um einen 
Zufallstreffer handeln. Das Ergebnis ist bei weitem nicht signifi- 
kant, denn dafür muss, wie wir wissen, die Fünfprozentmarke un- 
terschritten werden. 

Eine andere Möglichkeit besteht darin, Tabelle 41 im Anhang zu 
verwenden. Sie gibt an, wie viele Patienten mindestens erforderlich 
sind, um sicherzustellen, dass eine bestimmte Fehlschlagsquote 
nicht überschritten wird. Ihr zufolge bedeuten die einhundert er- 
folgreichen Eingriffe lediglich, dass die wahre Häufigkeit mit 
95-prozentiger Wahrscheinlichkeit kleiner als 3 Prozent ist. Die 


11 Die für die Gleichung benötigten Werte sind in diesem Fall: p = 0,02, 
n = 100, k = 0. Einsetzen in die Gleichung der Binomialverteilung 
(Seite 110) ergibt: P(n,k) = P(100,0) = [100!/(0!x 1001!)] x 0,02° x 0,98'% = 
1x 1x 0,13 = 0,13 oder 13 Prozent. 
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Anzahl der Patienten reicht also noch nicht aus, um zu zeigen, dass 
die Häufigkeit wirklich die üblichen 2 Prozent unterschreitet. 
Hierzu müssten entsprechend der Tabelle mehr als 150 Patienten 
ohne einen einzigen Todesfall behandelt worden sein. 

Zurück zum Sport. Trainer Franzl Brantwein steht vor der 
Frage, ob er seinen Torhüter Rudi Althaas durch das Nachwuchs- 
talent Jan Jungspunt ablösen soll. Althaas ließ in zweihundert 
brenzligen Situationen zwanzig Bälle durch (10 Prozent), während 
Jungspunt bei vierzig ernsten Bedrohungen nur dreimal daneben- 
griff (7,5 Prozent). Wiederum mit der Tabelle 41 können wir Franz] 
helfen: Mit 95 Prozent Wahrscheinlichkeit lässt Althaas weniger 
als 15 und Jungspunt weniger als 19 Prozent der bedrohlichen 
Schüsse ins Tor. Jungspunt muss sich also noch etwas bewähren. 


Im Nebel nach Überseh 
Der Fehler zweiter Art 


Wenn man im Nebel nichts sieht, 
heißt das noch lange nicht, dass da nichts ist. 
Käptn Piepenbrink 


Ist Ihnen eigentlich schon aufgefallen, dass die Autoren dieses Bu- 
ches Angela Merkel zum Verwechseln ähnlich sehen? Abbildung 
28 ist unser Beweis. Das Bild wurde kurz vor ihrer Wahl zur CDU- 
Vorsitzenden gemacht. Es zeigt uns mit Angela Merkel bei einem 
Spaziergang im Watt vor Amrum. Können Sie sagen, wer von den 
dreien Frau Merkel ist? Nein? Sehen Sie! Diese Ähnlichkeit hat 
uns auch verblüfft. Rechts sehen Sie den Leuchtturm von Hörnum. 
Der sieht uns nicht ganz so ähnlich, worüber wir sehr froh sind. 


Fe ER: 7SEBSEREER 


Abbildung 28: Die Bundeskanzlerin Angela Merkel beim Spaziergang mit 
den Autoren im Watt vor Amrum. Rechts sehen Sie den Leuchtturm von 
Hörnum auf Sylt. 


Bei dem großen Abstand sind natürlich nicht ausreichend Details 
zu erkennen, um Personen voneinander unterscheiden zu können. 
Das Bild ist für diesen Zweck schlicht ungeeignet. Grobe Unter- 
schiede, wie der zwischen einem Leuchtturm und den erwähnten 
Personen, kommen aber trotzdem gut heraus. 

Entsprechend können grobe Unterschiede bereits mit wenigen 
Patienten in einer Studie festgestellt werden, zum Beispiel wenn in 
der einen Gruppe alle geheilt sind, in der anderen keiner. Für kleine 
Unterschiede werden große Studien benötigt. Mit zu kleinen Stu- 
dien läuft man Gefahr, tatsächlich vorhandene Unterschiede zu 
übersehen. Der resultierende Fehlschluss «Da ist kein Unter- 
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schied» trägt den etwas phantasielosen Namen «Fehler zweiter 
Art». Diesen Fehler begeht auch ein Feuermelder, der trotz eines 
Feuers keinen Alarm auslöst. Dem «Fehler erster Art» entspräche 
dabei ein Alarm, obwohl es gar nicht brennt, also ein Fehlalarm. 

Ein ähnlicher Sachverhalt taucht auch in der Rechtsprechung 
auf. Will man vermeiden, einen Unschuldigen irrtümlich schuldig 
zu sprechen, dann muss man sehr hohe Anforderungen an die 
Glaubwürdigkeit der Zeugen und die Beweiskraft von Indizien 
stellen. Damit wächst jedoch zwangsläufig das Risiko, dass tat- 
sächliche Verbrecher nicht überführt werden können und weiter- 
hin frei herumlaufen. Möchte man hingegen vermeiden, dass auch 
nur ein einziger tatsächlicher Verbrecher irrtümlich freigesprochen 
wird, gilt es, die Ansprüche an die Zeugen und Indizien zu reduzie- 
ren. Damit ist aber unvermeidbar verbunden, dass auch einige Un- 
schuldige eingesperrt werden. Offensichtlich kann man nicht beide 
Risiken gleichzeitig verringern. Ferner ist zu bedenken, dass mit je- 
dem eingesperrten Unschuldigen der wahre Täter nach wie vor frei 
herumläuft. Er kann sich sogar sehr sicher fühlen, denn der Fall gilt 
ja als geklärt. In der Wissenschaft kann man im Gegensatz zur 
Jurisprudenz beide Fehler gleichzeitig klein halten, sofern man 
bereit ist, einen entsprechenden Aufwand zu treiben. 

In der Forschung entspricht dem unschuldig Eingesperrten ein 
zufällig signifikantes Ergebnis. Auch hier sorgt der angeblich «ge- 
klärte Fall» dafür, dass man nach der wahren Lösung des Pro- 
blems nicht weiter sucht, weil man glaubt, sie schon zu haben (ver- 
gleiche Kapitel «Ein Spiel mit gezinkten Würfeln»). Mit diesem 
«Fehler erster Art» haben wir uns bereits ausführlich befasst. Dem 
irrtümlich freigesprochenen Verbrecher entspricht ein tatsächlich 
vorhandenes bedeutsames Ergebnis, das in einer Studie zufällig 
übersehen wird. Diesen Fehler zweiter Art werden wir jetzt näher 
betrachten. 
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Der Übersehfehler 
Fehler zweiter Art 


Nehmen wir an, bei einer bestimmten Erkrankung gelingt es mit 
Hilfe einer langjährig bewährten Behandlungsmethode, 60 bis 70 
Prozent der Patienten zu heilen. Allerdings ist sie leider mit zwar 
vorübergehenden, aber doch sehr unangenehmen Nebenwirkun- 
gen verbunden. Ein Ärzteteam entwickelt nun eine neue Therapie, 
die den Patienten die scheußlichen Begleiterscheinungen erspart. 
Um zu prüfen, ob sich die Heilungsergebnisse der beiden Metho- 
den unterscheiden, gibt man eine klinische Studie in Auftrag, in der 
die Patienten, aufgeteilt in zwei Gruppen, entweder mit dem alten 
oder dem neuen Verfahren behandelt werden. Die folgende Tabelle 
zeigt zwei mögliche Ergebnisse.! 


Tabelle 23: Mögliche Ergebnisse einer klinischen Studie 


Alte Neue p-Wert' 
Therapie Therapie 
Beispiel 1 19 von 30 11 von 30 4 Prozent 
geheilt geheilt (p = 0,04), 
=63 Prozent =37 Prozent also signifikant 
Beispiel2 19 von 30 12 von 30 7 Prozent 
geheilt geheilt (p = 0,07), also 
= 63 Prozent = 40 Prozent nicht signifikant 


In beiden Beispielen schneidet die neue Therapie schlechter ab als 
die alte. Im ersten ist der Unterschied signifikant, denn der p-Wert 
beträgt 4 Prozent, ein Umstand, den die Sprache der Wissenschaft 
als p = 0,04 ausdrückt. Im zweiten Beispiel wurde mit der neuen 
Methode nur ein Patient mehr geheilt als im ersten. Die beiden 


1 Die Berechnung erfolgte wieder mit dem Vierfeldertest. 
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Therapien unterscheiden sich nun nicht mehr signifikant (p = 
0,07). Es wäre aber ein Fehlschluss, in diesem Fall zu behaupten, 
die alte und die neue Therapie seien gleichwertig. Wer keinen si- 
gnifikanten Unterschied findet, beweist damit nicht, dass überhaupt 
kein Unterschied vorhanden ist. Wenn man beim Angeln nichts 
fängt, heißt das noch lange nicht, dass im Teich keine Fische sind. 
Dieser Umstand wird bei klinischen Untersuchungen häufig nicht 
beachtet. 


Abbildung 29: Kein Fisch weit und breit (Fehler zweiter Art). Der Angel- 
wurm befindet sich im letzten Absatz des Kapitels «Schwamm ist ein vor- 
zügliches Material...» 
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Jubiläum eines beliebten Irrtums 
Verbreitung und Resistenz des Fehlers zweiter Art 
in der medizinischen Literatur 


Man soll keine Dummheit zweimal begehen, 
die Auswahl ist schließlich groß genug. 
Jean-Paul Sartre 


J. A. Freiman und Mitarbeiter haben bereits vor dreißig Jahren 
darauf hingewiesen, wie weit verbreitet der Fehlschluss «Wo kein 
signifikanter Unterschied gefunden wird, da ist auch kein Unter- 
schied » in der medizinischen Forschung ist (Freiman et al. 1992). 
Sie untersuchten 71 Studien aus den Jahren 1960 bis 1977, in denen 
jeweils zwei Behandlungen verglichen und keinerlei signifikante 
Unterschiede festgestellt worden waren. Die Studien waren in den 
angesehensten internationalen Medizin-Zeitschriften, zum Beispiel 
Lancet oder New England Journal of Medicine, erschienen. In fast 
allen geprüften Fällen (94 Prozent) überstieg die Wahrscheinlich- 
keit, eine 25-prozentige Verbesserung oder Verschlechterung der 
Heilungsrate zu übersehen, die Zehnprozentmarke. In 70 Prozent 
der Arbeiten lag die Chance, dass ein Unterschied von 50 Prozent- 
punkten (!) unbemerkt geblieben war, höher als 10 Prozent. 15 
Prozent der betrachteten Studien waren vorzeitig abgebrochen 
worden. 

Diese 1978 publizierte Bilanz wurde bis 1988 fast jede Woche 
einmal in wissenschaftlichen Arbeiten zitiert, insgesamt 429-mal. 
Zehn Jahre später wiederholten Freiman und Mitarbeiter das glei- 
che Spiel an 65 aus den Jahren 1977 bis 1987 stammenden Studien, 
die ebenfalls auf keine signifikanten Unterschiede gestoßen waren. 
Das Ergebnis glich in seinen Werten dem vorherigen, war aber 
noch erschütternder, denn offensichtlich hatte aus der ersten Publi- 
kation trotz der zahlreichen Zitate niemand etwas dazugelernt. 

Die jeweiligen Autoren, denen mit großer Wahrscheinlichkeit 
wichtige Veränderungen in ihren Studien entgangen waren, inter- 
pretierten ihre negativen Ergebnisse voreilig als Beweis für die 
«Gleichheit» der untersuchten Behandlungen. Es ist jedoch grund- 
sätzlich unmöglich, die Gleichheit zweier Therapien nachzuwei- 
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sen. Man kann lediglich behaupten, dass man einen tatsächlich 
vorhandenen Unterschied nur mit einer bestimmten Wahrschein- 
lichkeit, nämlich der für den Fehler zweiter Art, übersehen hätte. 


Die Sichtverderber 
Wovon der Fehler zweiter Art abhängt 


Die Wahrscheinlichkeit, einen tatsächlich vorhandenen Unter- 
schied zu übersehen, hängt von drei Dingen ab: 1. seiner Größe, 2. 
der Wahrscheinlichkeit für den Fehler erster Art und 3. der Anzahl 
der Patienten in der Studie. 

Es ist einleuchtend, dass die Größe des tatsächlichen Unter- 
schieds eine entscheidende Rolle beim Übersehfehler spielt. Eine 
Differenz von 10 Prozentpunkten bleibt eher unbemerkt als eine 
von 50 Prozentpunkten. 

Die gegenseitige Abhängigkeit der Wahrscheinlichkeiten für den 
Fehler erster und zweiter Art liegt nicht so unmittelbar auf der 
Hand. 

Im Beispiel 2 der Tabelle 23 scheitert das Aufdecken des Unter- 
schiedes von immerhin 23 Prozentpunkten zwischen alter und 
neuer Therapie an der Fünfprozenthürde für den Fehler erster Art. 
Wir übersehen ihn, weil er nicht signifikant ist. Hätten wir uns (vor 
Beginn der Studie!) auf ein Signifikanzniveau von 10 Prozent geei- 
nigt, wäre Beispiel 2 ebenfalls signifikant gewesen, und uns wäre 
die Differenz nicht entgangen. Mit anderen Worten: Wenn wir eine 
höhere Wahrscheinlichkeit für das Auftreten des Fehlers erster Art 
akzeptieren, verringern wir die Wahrscheinlichkeit, dass es zu Feh- 
lern zweiter Art kommt, und umgekehrt. 

Dass zum Dritten die Anzahl der Patienten in einer Studie von 
Bedeutung ist, entspricht unserer Intuition. Einer Erhebung mit 
fünfhundert Patienten trauen wir mehr zu als einer mit nur fünf. 
Bei insgesamt fünf Patienten macht ein Einzelner von ihnen bereits 
20 Prozent des Kollektivs aus. Damit kann man ganz sicher keine 
zweiprozentigen Unterschiede aufdecken. Die für eine Studie benö- 
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tigte Patientenzahl lässt sich mit statistischen Methoden berech- 
nen. Das ist jedoch relativ kompliziert und ergibt, selbst wenn man 
nur den häufigsten Fragestellungen gerecht werden will, ein um- 
fangreiches Tabellenwerk. Wir begnügen uns hier mit einer über- 
sichtlichen Darstellung und einer Faustformel, die aber lediglich 
grobe Abschätzungen erlauben. 


Tabelle 24: Grobe Näherung für die Anzahl der benötigten Patienten, um 
einen vorgegebenen Unterschied zwischen zwei Therapiemodalitäten fest- 
stellen zu können. Die Patienten müssen | zu 1 aufgeteilt werden. Vorga- 
ben: Wahrscheinlichkeit für den Fehler erster Art 5 Prozent; Wahrschein- 
lichkeit für den Fehler zweiter Art 20 Prozent. Bei sehr hohen und sehr 
kleinen Heilungsraten ist diese Tabelle ungenau (Sylvester 1989). 


Unterschied zwischen den Anzahl der benötigten 
Heilungsraten (in Prozentpunkten) auswertbaren Patienten 
5 2800 
10 720 
15 320 
20 180 
25 120 


Die erste Spalte der Tabelle gibt an, welchen Unterschied in den 
Heilungsraten wir mit der jeweils in der zweiten Spalte angege- 
benen Patientenzahl erkennen können. Für 5 Prozentpunkte Un- 
terschied sind 2800 Patienten erforderlich, aber es genügen be- 
reits 120 Patienten, wenn die Differenz der Heilungsraten 25 
Prozentpunkte beträgt. 

Die Tabelle wurde für eine fünfprozentige Wahrscheinlichkeit 
des Fehlers erster und eine zwanzigprozentige Wahrscheinlichkeit 
des Fehlers zweiter Art berechnet. In der medizinischen For- 
schung werden diese Wahrscheinlichkeiten als ausreichend akzep- 
tiert, wenn auch, wie erwähnt, nur sehr selten eingehalten. Wür- 
den Sie einen Feuermelder kaufen, der eine Fehlalarmquote von 5 
Prozent hat und der bei 20 Prozent der Brände keinen Alarm 
schlägt? 
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Mit Tabelle 24 bewaffnet, wird bei der Durchsicht der aktuellen 
medizinischen Literatur schnell deutlich, dass die meisten klini- 
schen Untersuchungen mit negativem Ergebnis wertlos sind - 
nicht wegen des negativen Ergebnisses, sondern weil selbst die 
größeren und wichtigen Studien selten mehr als insgesamt 320 Pa- 
tienten einbeziehen.? Bei einer Vorgabe von 20 Prozent für den 
Fehler zweiter Art werden mit diesen Patientenzahlen in jeder 
fünften Studie nicht gerade unerhebliche Unterschiede von immer- 
hin 15 Prozentpunkten übersehen. Etwa 80 Prozent der auf der 
vierten Tagung der Deutschen Gesellschaft für Radio-Onkologie 
DEGRO im November 1998 vorgestellten klinischen Studien wur- 
den mit weniger als 100 Patienten durchgeführt. Mit Hilfe von 
Tabelle 24 kommen Sie sicherlich schnell zu einer Einschätzung, 
was davon zu halten ist. 

Vielseitiger für die Abschätzung von Patientenzahlen ist die im 
Folgenden beschriebene Faustformel, die wir gleich an einem Bei- 
spiel aus dem Straßenverkehr ausprobieren. Die Anwohner eines 
verkehrsberuhigten Stadtgebiets beschweren sich seit vielen Jahren 
über die große Anzahl von Autofahrern, die trotz Tempobegren- 
zung mit überhöhter Geschwindigkeit durch die Straße brettern 
und das Leben der dort spielenden Kinder gefährden. Nachdem die 
Tochter eines Politikers mit ihrer Familie in die Straße gezogen ist, 
werden diese Beschwerden durch eine stichprobenartige Radar- 
kontrolle von der Polizei überprüft und bestätigt. Insgesamt 39 von 
121 (= 32 Prozent) der kontrollierten Fahrzeuge sind zu schnell ge- 
fahren. Die nun heftiger vorgetragenen Forderungen der Anwoh- 
ner nach wirkungsvollen Maßnahmen nutzt die Regierungspartei, 
um Wähler zu gewinnen. Sie startet eine aufwendige Aufklärungs- 


2 Im Rahmen einer Untersuchung auf einem Spezialgebiet der Radioonko- 
logie (Beck-Bornholdt et al. 1997) konnten wir feststellen, dass von den 
vierzehn in der Literatur existierenden randomisierten Studien (siehe auch 
S. 192) zwei weniger als 120 Patienten, drei zwischen 120 und 180 und 
fünf zwischen 180 und 320 Patienten untersucht haben. Die größte Studie 
wies insgesamt 509 Patienten auf, also deutlich weniger als die 720, die er- 
forderlich wären, um einen Unterschied von 10 Prozentpunkten mit 
80-prozentiger Sicherheit nachweisen zu können. 
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kampagne und lässt neue Verkehrsschilder aufstellen. Die Politiker 
hoffen, dass sie dadurch den Anteil der Raser auf die Hälfte haben 
senken können, und wollen dies nun durch eine erneute Geschwin- 
digkeitskontrolle überprüfen lassen. Dabei machen ihnen aller- 
dings zwei Befürchtungen zu schaffen: Zu ausgedehnte Kontrollen 
sind teuer und verschlechtern die Laune der Autofahrer, was si- 
cherlich einen Stimmenverlust bedeutet. Andererseits sollen auch 
nicht zu wenige Fahrzeuge kontrolliert werden, da dann der er- 
wünschte Erfolg zufällig übersehen werden könnte. Auch das 
würde Wählerstimmen kosten. 

Wir können diesen um Optimierung bemühten Politikern mit ei- 
ner Faustformel zur Berechnung der Anzahl von Autofahrern hel- 
fen, die man mindestens kontrollieren muss, um die ganze Aktion 
am Ende auch statistisch aussagekräftig zu machen. In der Formel 
heißen Fahrzeuge mit überhöhter Geschwindigkeit «Versager », die 
anderen «Erfolg». Zu der Versagerrate von 32 Prozent bei der ers- 
ten Verkehrskontrolle gehört die Erfolgsrate von 100 — 32 = 68 
Prozent; dem erhofften 16-prozentigen Versageranteil nach der 
Kampagne stehen 84 Prozent Erfolge gegenüber. Die Formel für 
die Anzahl der zu untersuchenden Fahrzeuge pro Gruppe lautet 
(Gore 1995): 


(Erfolgsrate A x Versagerrate A) + (Erfolgsrate B x Versagerrate B) 


Anzahl pro Gruppe = 8 « 
(Erfolgsrate A - Erfolgsrate B)? 


Diese Formel bezieht sich auf Studien mit Quoten von 5 Prozent 
für den Fehler erster und von 20 Prozent für den Fehler zweiter 
Art. Zur Berechnung der Anzahl pro Gruppe für den Fehler zwei- 
ter Art von 10 Prozent muss die «8» in der Formel durch eine 
«10», für den Fehler zweiter Art von 50 Prozent durch eine «4 » 
ersetzt werden (Dubben & Beck-Bornholdt 1999). Wenn also nach 
der Aufklärungskampagne ein tatsächlicher Unterschied von 16 
Prozentpunkten im Vergleich zur Zeit davor besteht, dann können 
wir ihn mit 80-prozentiger Sicherheit nachweisen, sofern folgende 
Anzahl von Fahrern kontrolliert wird: 
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(68 x 32) + (84x 16) _ 


Anzahl pro Gruppe = 8 x 
(68 — 84)? 256 


Pro Gruppe müssen also mindestens 110 Fahrzeuge gemessen wer- 
den. Wenn die Anzahl nur halb so groß ist wie mit der Formel be- 
rechnet, dann beträgt die mögliche Quote für den Fehler zweiter 
Art bereits 50 Prozent. Eine Untersuchung von weniger als 55 Au- 
tos pro Gruppe führt also dazu, dass ein tatsächlich vorhandener 
Effekt der Aufklärungskampagne und der zusätzlichen Verkehrs- 
schilder mit einer Wahrscheinlichkeit von mehr als 50 Prozent 
übersehen wird. 


Kleine Wirkung, großer Aufwand 
Theoretische Größe einer Mammographie-Studie 


Als Argument für die Früherkennung von Brustkrebs durch Mam- 
mographie wird häufig angeführt, dass durch diese ein Viertel der 
Brustkrebstodesfälle verhindert werden könnte’. Bei dieser Zah- 
lenangabe handelt es sich um eine so genannte relative Risiko- 
reduktion. Der Nutzen der Früherkennung erscheint außerordent- 
lich groß. Werden die Zahlen jedoch absolut angeben, dann wirken 
sie deutlich bescheidener: Ohne Mammographie-Screening ver- 
sterben innerhalb von 10 Jahren 4 von 1000 Frauen (0,4 Prozent) 
an Brustkrebs. Mit Früherkennung (über zehn Jahre) beträgt die 
Brustkrebsmortalität nur 3 von 1000 (0,3 Prozent). Beide Zahlen- 
angaben beschreiben denselben Sachverhalt, haben aber sehr un- 
terschiedliche Wirkung.* 

Wie groß muss eine Studie eigentlich sein, um den genannten 


3 Die Ausführungen hier beziehen sich auf ein Massen-Screening mit 
Mammographie von Frauen ohne spezifische Symptome im Alter von 50 
bis 69 Jahren. 

4 Es gibt noch weitere Möglichkeiten, den Vorteil der Mammographie 
darzustellen. Näheres zur Kommunikation derartiger Fakten finden Sie bei 
Mühlhauser & Höldtke (2002). 


149 


Unterschied bei einem Signifikanzniveau von 5 Prozent und einer 

Wahrscheinlichkeit für den Fehler zweiter Art von 20 Prozent 

nachzuweisen, sofern die Studie über einen Zeitraum von zehn Jah- 

ren läuft? Mit unserer Formel haben wir das schnell beantwortet: 
(0,4 x 99,6) + (0,3 x 99,7) 


Anzahl pro Gruppe=8x 5 =8x6975=55800 
(0,4 - 0,3) 


Insgesamt werden in einer Studie doppelt so viele, also 111 600 Pa- 
tientinnen, benötigt, um den behaupteten Nutzen zu belegen. 

In der Realität wird man deutlich mehr Patientinnen benötigen. 
Über einen Zeitraum von 10 Jahren ziehen viele Menschen um, und 
es kann nicht mehr festgestellt werden, ob sie noch leben oder be- 
reits verstorben sind. Auch wird in vielen Mammographie-Studien 
die Todesursache aus dem Totenschein übernommen. Es ist aller- 
dings bekannt, dass die Todesursache auf dem Totenschein häufig 
unrichtig ist. Sollte unsere theoretische Studie wie erwartet ausge- 
hen, erhalten wir 223 Brustkrebstote in der Nicht-Screening- 
Gruppe und 167 in der Screening-Gruppe. Ganze 223-167=56 
Patientinnen machen den Unterschied des Ergebnisses aus. Und 
noch viel weniger Patientinnen machen die statistische Signifikanz 
des Ergebnisses aus (in diesem Fall sind es 18). Wenn aus einer Stu- 
die mit über 111 600 Patientinnen einige 100 nicht in das Ergebnis 
einfließen, weil sie umgezogen sind, dann ist das Ergebnis schon 
nicht mehr überzeugend. Auch dürfte die Anzahl der unrichtigen 
Angaben zur Todesursache die Anzahl der Patientinnen, die den 
Unterschied ausmachen, bei weitem übersteigen. Die Ergebnisse 
der Studien sind somit mit größter Vorsicht zu genießen. 


Wer suchet, der findet 
Der minimale relevante Unterschied 


Und wer suchet, der muss natürlich eine Vorstellung davon haben, 
was er suchet, sonst weif er ja gar nicht, wonach er Ausschau hal- 
ten soll. Zur Berechnung der Anzahl der Patienten für eine Studie 


mit vorgegebenen Wahrscheinlichkeiten für die Fehler erster und 
zweiter Art muss man zwei Zahlen kennen, nämlich die Erfolgsra- 
ten in der Standardbehandlung und den Unterschied, um den die 
neue Behandlung besser ist. Na gut, die Erfolgsrate der Behand- 
lung, die ich seit Jahren durchführe, die kenne ich mittlerweile. 
Aber um wie viel die neue Therapie besser ist? Das weiß ich nicht. 
Würde ich es wissen, bräuchte ich doch die Studie nicht mehr. Da 
beißt sich doch die Katze in den Schwanz! 

Ich wollte zu Hause in der Küche schon seit langem eine neue 
Arbeitsplatte einbauen. Im Baumarkt gibt es gerade ein Sonderan- 
gebot. Knapp drei Meter lang. So steht es in der Wurfpostille. Das 
könnte reichen. Zur Not säg ich was ab. Nur zu kurz darf es nicht 
sein. Etwas dransägen geht ja schlecht. Zunächst einmal benötige 
ich ein Mafßband, um meine alte Platte und dann das Sonderange- 
bot zu vermessen. Welche Unterteilung soll das Maßband haben? 
Reichen Zentimeter? Lieber Millimeter oder gar Zehntel-Millime- 
ter? Wie soll ich das entscheiden, wenn ich nicht weiß, um wie viel 
die Angebotsplatten von meiner alten Platte abweichen? Da beißt 
sich doch die Katze in den Schwanz! 

Die letzte Frage ist doch sehr merkwürdig, nicht wahr? Dieser 
Heimwerker sollte sich überlegen, welche Genauigkeit zur Mes- 
sung erforderlich ist. Bei der Küchenplatte wird es auf 2 oder 3 
Millimeter nicht ankommen, wozu gibt es denn Silikon. Also reicht 
eine Millimetereinteilung vollkommen. Eine Dezimeter-Einteilung 
wäre zu grob. Mit so etwas könnte man einen relevanten Unter- 
schied von einigen Zentimetern leicht übersehen. Eine Mikrome- 
terschraube wäre allerdings hinausgeworfenes Geld. 

Genauso verhält es sich mit einer Studie. Ich muss wissen, ein 
wie großer Unterschied, beispielsweise in der Heilungsrate zweier 
Therapien, relevant ist. Diesen Unterschied muss die Studie aufzei- 
gen können. Danach richtet sich die Berechnung der Anzahl erfor- 
derlicher Patienten. So wie ein grobes Maßband ist auch eine Stu- 
die, die nur große Unterschiede messen kann, das billigere Werk- 
zeug, weil man weniger Patienten benötigt. Will man kleinere Un- 
terschiede messen, wird es teurer. Man muss also vorher wissen, 
was relevant ist. Genauer genommen muss man einen minimalen 
relevanten Unterschied angeben. Das ist vernünftig, denn eine Stu- 


die, die einen Unterschied von 20 Prozentpunkten aufdecken kann, 
kann dies noch besser bei einem Unterschied von 30 Prozentpunk- 
ten. Und wenn 20 Prozentpunkte relevant sind, dann sind es 30 
erst recht. 

Die Frage nach der Relevanz ist natürlich auch angebracht, 
wenn mit sehr vielen Probanden beispielsweise einer riesengroßen 
multizentrischen Studie, einer epidemiologischen Untersuchung 
oder einer Metaanalyse ein klitzekleiner Unterschied als statistisch 
signifikantes Ergebnis erscheint. Mit sehr hohen Fallzahlen be- 
kommt man fast alles statistisch signifikant, aber dadurch wird es 
nicht unbedingt interessant oder relevant. 

Zusammenfassend halten wir fest: Kleine Unterschiede sind 
schwer nachweisbar; kleine Fallzahlen machen Untersuchungen 
zum Glücksspiel. 


Die Qual vor der Wahl 
Wahlprognosen 


Politiker rechnen so sehr mit der Stimme des Wählers, 
dass sie nicht dazu kommen, sie zu hören. 
Werner Schneyder 


Kein Wahlkampf ohne Wahlprognosen, die sich gegenseitig wider- 
sprechen. Verschiebungen um nur wenige Prozentpunkte entschei- 
den bereits darüber, welche Partei die Mehrheit erringt, welche Ko- 
alitionen möglich sind, welche Parteien an der 5-Prozent-Hürde 
(der politischen, nicht der statistischen) scheitern. Deshalb gehen 
die Interpretationen und politischen Vorhersagen oft weit ausein- 
ander. Von der Möglichkeit, dass das Umfrageinstitut gar keine 
echte Prognose liefern will, sondern für eine Partei ein bestimmtes 
Ergebnis herbeireden möchte, wollen wir hier absehen. So wie 
die medizinischen Kollegen in den vorigen Abschnitten stecken 
die Meinungsforscher in einem Dilemma. Wenn sie nur wenige 
Leute befragen, ist ihr Ergebnis entsprechend ungenau. Vorhandene 
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Trends werden mit hoher Wahrscheinlichkeit übersehen, und die 
befragte Gruppe ist aller Voraussicht nach nicht repräsentativ. Wen 
würde es schon wundern, wenn von 10 befragten Lehrern einer 
Hamburger Gesamtschule 9 dieselbe Partei wählen? Wenn von 
10000 oder 100000 Leuten 90 Prozent dieselbe Partei wählen, das 
wäre schon eher bemerkenswert — und bedenklich. Für genauere 
Ergebnisse muss man mehr Menschen befragen, was natürlich mit 
steigenden Kosten verbunden ist. Am besten fragt man alle, dann 
weiß man es ganz genau. Das Dilemma lautet: Eine Umfrage ist 
entweder ungenau oder teuer. 

Vor Durchführung einer Umfrage muss feststehen, wie genau 
das Ergebnis sein soll. Damit lässt sich dann abschätzen, wie viele 
Personen befragt werden müssen. Betrachten wir ein Beispiel: Ein 
Meinungsforschungsinstitut soll für eine der großen Volksparteien, 
deren Wähleranteil bei etwa 40 Prozent liegt, zwei repräsentative 
Umfragen durchführen. Eine zu Beginn des Wahlkampfes und eine 
mittendrin. Zur Beurteilung der Wahlkampfstrategie des Auftrag- 
gebers (und zwangsläufig auch derjenigen der gegnerischen Partei) 
während der ersten «Halbzeit» möchte man die Ergebnisse der 
Umfragen miteinander vergleichen. 

Zunächst müssen wir fragen, wie groß der minimale relevante 
Unterschied ist. Fünf Prozentpunkte sind sicherlich zu hoch gegrif- 
fen. Das wäre bereits eine erdrutschartige Wählerwanderung. Zwei 
Prozentpunkte erscheinen da angemessener. Wenn der Auftragge- 
ber eine Veränderung des Wähleranteils um zwei Prozentpunkte 
mit einer Wahrscheinlichkeit von 80 Prozent bei einem Signifi- 
kanzniveau von 5 Prozent erkennen will, dann ergibt die oben ein- 
geführte Formel: 


(40x 60) + (42x58) _ gx 1836 


9672 
(40-42)? 4 


Anzahl der Antworten = 8x 
Erfahrungsgemäß verweigern etwa ein Drittel der Befragten die 


Antwort, sodass pro Umfrage etwa 15 000 Personen und insgesamt 
etwa 30000 befragt werden müssen. 
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Für eine kleine Partei mit einem Stimmenanteil von etwa 6 Prozent 
und angstvollem Blick auf die politische 5-Prozent-Hürde ist schon 
eine Abnahme um einen Prozentpunkt ein Desaster. In diesem Fall 
ergibt die Formel: 


(6x 94) + (5x 95) 1039 
=r8X 


8312 
(6-5)? 1 


Anzahl der Antworten = 8x 


Berücksichtigt man auch hier ein Drittel Verweigerer, dann müssen 
für eine aussagekräftige Trenduntersuchung über 12000 Wähler 
befragt werden.” 


Im Allgemeinen basieren Wahlprognosen auf den Antworten von 
nur etwa eintausend befragten Personen. Manchmal werden fünf- 
tausend Wähler befragt. Die mit solchen Umfragen ermittelten 
Zahlen unterliegen erheblichen statistischen Fehlern und sind häu- 
fig viel zu ungenau für eine vernünftige Prognose. Die Abbildung 
30 vermittelt einen Eindruck von der Genauigkeit eines Umfrage- 
ergebnisses. Liefert eine Umfrage mit 1000 Antworten das Ergeb- 
nis «40 Prozent», dann liegt der Stimmenanteil mit großer Wahr- 
scheinlichkeit zwischen 37 und 43 Prozent.° Das bedeutet, er lässt 
sich nur auf etwa = 3 Prozent genau vorhersagen. Mit 1000 Ant- 
worten können Veränderungen des Wähleranteils von ein oder 
zwei Prozent nicht zuverlässig erkannt werden. Selbst mit 5000 
Antworten kann der Stimmenanteil nur auf etwa = 1,4 Prozent ge- 
nau vorhergesagt werden. Werden für die kleine Partei 1000 Ant- 
worten mit dem Ergebnis «6 Prozent» ausgewertet, sollten sich de- 
ren Anhänger nicht zu früh freuen. Das Ergebnis kann 7,65 Prozent 
betragen, aber auch nur 4,62 Prozent. Und das wäre eine hundert- 
prozentige Niederlage. 

Bisher haben wir nur statistische Schwankungen betrachtet. Zu 
ihnen gesellt sich noch eine ganze Reihe weiterer Fehlerquellen. 


5 Bei diesen Berechnungen unterstellen wir eine sehr große Wählerschaft. 
Bei Bürgermeisterwahlen in einem Ort mit 5000 Seelen muss man anders 
vorgehen. 

6 Hier wurde der 95-Prozent-Vertrauensbereich mit Hilfe der Binomial- 
verteilung berechnet. Siehe auch Anhang II. 
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Abbildung 30: Vermutlicher Stimmenanteil für das Umfrageergebnis 40 
Prozent (oben) beziehungsweise 6 Prozent (unten) in Abhängigkeit von 
der Anzahl der Antworten 


Viele Wahlprognosen basieren auf Telefoninterviews. Hierbei las- 
sen sich «arbeitserleichternde Maßnahmen» (beispielsweise pro 
Befragten gleich zwei Fragebögen ausfüllen) nicht sicher ausschlie- 
ßen. Es ist sehr zu bezweifeln, dass der Anteil derjenigen, die am 
Telefon einem Fremden bereitwillig Auskunft erteilen, bei allen 
Parteien derselbe ist. In der Praxis ist die Ungenauigkeit von Wahl- 
prognosen damit wahrscheinlich erheblich größer, als die rein 
statistischen Fehler vermuten lassen. 


(Un)heimliche Verluste 
Die weit reichenden Konsequenzen des Fehlers 
zweiter Art 


Bei der Behandlung von Brustkrebs sind in den letzten Jahren 
große Fortschritte erzielt worden. Zu den ersten Erfolgen führte 
eine sehr radikale Operation, bei der man nicht nur die Brust, son- 


dern auch den darunter liegenden Muskel entfernte. Zwar konnte 
durch diese Behandlung ein großer Anteil der Patientinnen geheilt 
werden, aber die damit verbundene Verstümmelung stellte für sie 
eine erhebliche Belastung dar. Deshalb hat man nach weniger ag- 
gressiven Behandlungen gesucht. Zunächst verzichtete man auf die 
Entfernung des Muskels. Daran schloss sich eine Phase an, in der 
nur ein Quadrant, das heißt ein Viertel der Brust, entfernt und das 
umliegende Gewebe zusätzlich bestrahlt wurde. Zur weiteren Ver- 
besserung der kosmetischen Ergebnisse folgten Untersuchungen, 
die zeigen konnten, dass eine operative Entfernung des Tumors mit 
einem relativ kleinen Sicherheitssaum und einer anschließenden 
Bestrahlung die Heilungserfolge nicht beeinflusste. Heute laufen 
zahlreiche Erhebungen mit dem Ziel, nun auch auf die Strahlenbe- 
handlung zu verzichten. 

Der Haken bei der statistischen Überprüfung des geschilderten 
Ablaufs besteht darin, dass bei jedem Vergleich möglicherweise 
kleine Verschlechterungen der Heilungsrate übersehen werden. 
Diese heimlichen Verluste könnten sich dann unbemerkt zu einem 
unbefriedigenden Endergebnis aufaddieren. Das Problem erinnert 
ein wenig an das Kletterseil im Kapitel «Mit der Schrotflinte in den 
Porzellanladen » und lässt sich durch ein Würfelexperiment veran- 
schaulichen (Tabelle 25). 

Nehmen wir an, eine bestimmte Therapie I führe zur Heilung 
von 83 Prozent der Patienten. Dies können wir mit einem Würfel 
einfach simulieren: Die Zahlen von eins bis fünf entsprechen einem 
Erfolg, nur die Sechs ist ein Fehlschlag.” Die von uns entwickelte 
Therapie II hat deutlich geringere Nebenwirkungen als die alther- 
gebrachte Therapie I, und wir wünschen uns, dass sie ebenso viele 
Patienten heilt wie diese, denn nur dann ist sie eine echte Verbesse- 
rung. Tatsächlich ist die neue Therapie aber nur bei 67 Prozent der 
Patienten erfolgreich. In unserem Würfelexperiment stehen also 
nur die Zahlen von eins bis vier für eine Heilung, fünf und sechs 
bedeuten einen Misserfolg. In der ersten Studie treten in diesem 


7 Die Wahrscheinlichkeit für «1 oder 2 oder 3 oder 4 oder 5» ist 5/6 = 
0,83 oder 83 Prozent; die für eine «6» beträgt 1/6 = 0,17 oder 17 Pro- 
zent. 
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Tabelle 25: Simulation der Potenzierung des Fehlers zweiter Art bei suk- 
zessiven, aufeinander aufbauenden Studien 


Strichliste Unterschied 
Erfolge Misserfolge signifikant? 
1. Studie (Therapie I versus Therapie II): 
Therapie 1 (83%; Heilung bei 1bis5) Ej Mı 
Therapie II (67 %; Heilung bei 1 bis4) Ejj Mıı 


2. Studie (Therapie II versus Therapie III): 
Therapie II (67 %; Heilung bei 1 bis4) Ej Mı 
Therapie III (50%; Heilung bei 1 bis 3) Ejj Mıı 


3. Studie (Therapie III versus Therapie IV): 


Therapie III (50%; Heilung bei 1 bis 3) Ej Mı 

Therapie IV (33%; Heilung bei 1 bis2) Eyj Mir 

Beispielstudie 

Therapie I (Heilung bei 1 bis 5) E} 1 My 

Therapie II (Heilung bei 1 bis 4) Eır Mr nein 


Würtfelspiel Therapie I und II mit jeweils zwölf Patienten gegen- 
einander an. Pro Gruppe muss also zwölfmal gewürfelt werden. 
Bitte tragen Sie Ihre Ergebnisse in Tabelle 25 ein. Nach denselben 
Spielregeln verfahren Sie nun beim Vergleich von Therapie II und 
Therapie II. Diese ist noch schonender als Therapie II, doch wird 
nur noch die Hälfte der Patienten geheilt, das heifst, die Zahlen eins 
bis drei stehen für Behandlungserfolg, vier bis sechs für Misserfolg. 
Zum Abschluss prüfen Sie Therapie III gegen Therapie IV, wobei 
bei Therapie IV nur noch eins und zwei eine Heilung und drei bis 
sechs einen Fehlschlag bedeuten. 

Nach dem Würfeln können Sie feststellen, ob Ihre drei Studien 
zu signifikanten Unterschieden in der «Heilungsrate» geführt 
haben. Um Ihnen den Vierfeldertest zu ersparen, haben wir für 
die Auswertung Tabelle 26 erstellt. Die Zeile gibt die Anzahl der 
geheilten Patienten «E,» der einen und die Spalte die Anzahl der 
geheilten Patienten «E,» der anderen Therapie wieder. Für die 
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Beispielstudie von Tabelle 25 (E,= 9 und E,, = 7) suchen wir Zeile 
neun und Spalte sieben auf. Die Differenz ist nicht signifikant.® 
Prüfen Sie nun anhand der Tabelle oder mit dem Vierfeldertest, ob 
Ihre drei Studien zu signifikanten Ergebnissen geführt haben, und 
tragen Sie das Resultat neben der Strichliste in Tabelle 25 ein. 

Sie haben gute Chancen, während des ganzen Spiels keinen ein- 
zigen signifikanten Unterschied zu finden, was in der Realität 
hieße, dass Ihnen die Verschlechterung der Heilungsrate um 50 
Prozentpunkte, nämlich von 83 auf nur noch 33 Prozent, entgeht. 
Die Wahrscheinlichkeit, die jeweiligen Unterschiede von 16 bis 17 
Prozent zu übersehen, beträgt 86 Prozent, und die Wahrscheinlich- 
keit, dass dies dreimal hintereinander geschieht, 64 Prozent”. Bei 
einem direkten Vergleich von Therapie I und IV würde die 50-pro- 
zentige Differenz nur mit einer Wahrscheinlichkeit von 27 Pro- 
zent !’ unbemerkt bleiben. Sind bei Ihnen Therapie I und Therapie 
IV signifikant verschieden? Das Risiko für den Fehler zweiter Art 
ist deutlich höher, wenn man nicht direkt, sondern sukzessiv ver- 
gleicht. In diesem Beispiel steigt das Risiko um mehr als das Dop- 
pelte (64 %/27 % = 2,37). 

Die Vernachlässigung des Fehlers zweiter Art kann nach einer 
solchen Serie zu erheblichen Verschlechterungen einer Therapie- 
form führen. Im Würfelbeispiel fällt das sofort auf, da wir die Er- 
gebnisse der ersten und der letzten Studie gegenüberstellen können. 


8 Für die Beispielstudie (E)= 9, M; = 3, Ey, = 7, M,,= 5) erhalten wir mit der 
Formel für den Vierfeldertest (siehe Seite 52 ff.): 
(Ei+ M) + Eu + My = 1)x(ExMyu-EuxM? _ (94+34+74+5-1)x(9x5-7x3)2 


Prüfgröße = & 
(E) + Ey) x (M} + My) x (E) + My) x (En + My) 16x8x 12x12 


23x576 13248 
= = = 0,72 
18432 18432 


Da die Prüfgröße kleiner als 3,84 ist, ergibt sich in der Beispielstudie ein 
nicht signifikanter Unterschied zwischen Therapie I und II. 

9 0,86 x 0,86 x 0,86 = 0,64 beziehungsweise 64 Prozent. 

10 Die Berechnung der Übersehwahrscheinlichkeiten von 86 und 27 Pro- 
zent ist nicht ganz so einfach, und deren genaue Herleitung würde hier zu 
weit führen. 
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Tabelle 26: Tabelle zur Auswertung des Würtelspiels 


Heilungen bei der anderen Therapie (E;}) 


Heilun- 

gen 

bei der 

einen 

Thera- 

peE) 012345 6789 ı 2 
0 n.s. n.s. n.Ss. 1.8. Ss. Ss s s s s SA 

1 n.s. n.s. n.S. n.S. n.S. n.S. S ss s Su nSh 8% 

2 DS NT NT OT, Fe: a VO 1-7 

3 DSHDESNTTETES:, DSDS DS NS 5 Sosı Se 8% 

4 SS 0.0808 DD 0 DENE 

5 ss n.Ss ns. ns ns ns. ns ns nn 8 88 

6 % 8 Ds ENDE NED 0% 

7 ss 0 ns ns ns. ns. ns NS. NS. ns. ns. Ss. 

8 ss 8.8 EN NE Ns. ns ns n.8. N. N. Ss 

9 ss 8.8.8 EN NS NS. n$. ns. N. ns. ns. 
10 he rt DES, DD 
11 Be he DER 0 DD DS 
12 See NND; 


Diese Tabelle wurde mit dem Vierfeldertest berechnet und gilt nur für den 
Vergleich von jeweils zwölf Patienten pro Gruppe (s.: signifikanter Unter- 
schied ; n.s.: nicht signifikant). 


In der Realität vergehen zwischen den einzelnen Schritten einer sol- 
chen Kette viele Jahre, häufig sogar Jahrzehnte. Ein direkter Ver- 
gleich zwischen dem ersten und dem letzten Glied ist fast unmög- 
lich, weil die anfängliche Therapie mittlerweile als völlig veraltet 
gilt und eventuell sogar als Kunstfehler betrachtet wird. 

Natürlich lassen sich aktuelle Ergebnisse an den niedergeschrie- 
benen historischen einer Vorläufertherapie messen, doch besteht 
die Gefahr, Äpfel mit Birnen zu vergleichen, da sich zwischenzeit- 
lich häufig auch begleitende Therapiemodalitäten und die Dia- 
gnostik verändert haben. Die Falle, in die man beim Vergleich mit 
historischen Daten laufen kann, heißt «stage migration». Wir wer- 
den auf Seite 234f. auf sie zurückkommen. 
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Um das Problem des Fehlers zweiter Art zu umgehen, sind in der 
medizinischen Forschung in den letzten Jahren so genannte Mega- 
trials, also Riesenstudien, populär geworden. Dies sind meist mul- 
tizentrisch (an vielen Krankenhäusern gleichzeitig) durchgeführte 
Studien mit sehr großen Patientenzahlen. Die statistischen Vorteile 
solcher Megatrials erscheinen zwar sehr verlockend, doch sind sie 
keineswegs das Nonplusultra der medizinischen Forschung, und 
bei der Interpretation ihrer Ergebnisse ist Vorsicht geboten (Charl- 
ton 1996). Das liegt daran, dass die hohe Anzahl der Patienten zu 
Lasten der Genauigkeit geht. Große Populationen können dadurch 
hergestellt werden, dass man eine Reihe im Grunde verschiedener 
Kollektive in einen Topf wirft. Soll eine Studie alle Patienten mit 
Lungenkrebs einbeziehen, so ist es sehr viel einfacher, viele Proban- 
den zusammenzubekommen, als wenn die Erkrankung präzisiert 
und ein bestimmtes Stadium untersucht wird. Das Dilemma lautet 
also: Je präziser die Fragestellung einer Studie umrissen ist, desto 
weniger Patienten bekommt man zusammen und desto ungenauer 
wird die Antwort im statistischen Sinne. Je unpräziser die Frage, 
umso statistisch genauer die Antwort, weil man viele Patienten hat. 
Die Information, die der Arzt für die Behandlung eines einzelnen 
Kranken benötigt, wird mit einer solchen Riesenstudie nicht ge- 
wonnen, denn eine Einzelperson entspricht nur extrem selten dem 
Durchschnitt von zum Beispiel zehntausend Patienten eines Mega- 
trials. - Große Zahlen allein sind offenbar keine Lösung. 


Mit der Wahrheit lügen 
Manipulationsmöglichkeiten 
bei der Darstellung von Ergebnissen 


Aus Lügen, die wir glauben, 
werden Wahrheiten, mit denen wir leben. 
Oliver Hassenkamp 


Ein Bild sagt mehr als tausend Worte. Das gilt nicht nur für die 
Kunst, sondern auch für die Darstellung quantitativer Zusammen- 
hänge wie wissenschaftlicher Ergebnisse oder wirtschaftlicher Da- 
ten. Ein Reiseunternehmen wird in seinem Prospekt eher eine hüb- 
sche Grafik als eine Tabelle zeigen, um den Kunden über das 
Wetter am Zielort zu informieren und vor allem auch davon zu 
überzeugen, dass das Wetter dort nichts zu wünschen übrig lässt. 
Wenn man in einem Koordinatensystem die Sonnenscheindauer 
gegen die Jahreszeit aufträgt, ergibt das eine wesentlich übersicht- 
lichere und einprägsamere Darstellung als zwei Tabellenspalten 
mit Zahlen. In der Malerei gibt das Bild die Sicht des Malers wie- 
der, aber auch in Wissenschaft und Wirtschaft wird die bildliche 
Präsentation harter Daten ganz maßgeblich von der subjektiven 
Einschätzung des «Künstlers» geprägt. Aus einer Unzahl von Auf- 
tragungsarten kann er diejenige auswählen, die die ihm genehmen 
Aspekte betont und die unangenehmen herunterspielt. Auch ohne 
Daten zu verändern (das wäre Betrug), ist die Menge der Manipu- 
lationsvarianten fast unerschöpflich. Einige werden Sie in diesem 
Kapitel kennen lernen, aber nicht etwa, damit Sie selber besser 
manipulieren können, sondern damit Sie nicht mehr darauf herein- 
fallen. 

Immer wenn für das Verständnis der realen Beispiele umfangrei- 
che Fachkenntnisse erforderlich waren, haben wir uns einfache 
Beispiele ausgedacht, die dann ausdrücklich als solche gekenn- 
zeichnet sind. 


Daten auf der Streckbank 
Manipulierte Koordinatenachsen 


Beim Fotografieren können Sie mit der Linse nah ans Geschehen 
herangehen, um auch kleine Details groß erscheinen zu lassen. 
Oder Sie halten Abstand, um zum Beispiel ein Gebirgspanorama 
ins Bild zu bekommen, in dem dann die Baustelle vor dem Hotel 
zur unbedeutenden Bagatelle wird. Entsprechende Stilmittel stehen 
bei der Wahl von Koordinatenachsen zur Verfügung. Auch hier 
können Sie unliebsame Erscheinungen klein werden lassen oder 
kleine Dinge groß aufblasen - ganz wie es beliebt. 

Betrachten wir ein ausgedachtes Bild': Der Polizeipräsident eines 
beschaulichen Städtchens hat kürzlich die Entwicklung der Ein- 
bruchskriminalität in einer Pressemitteilung dargestellt. In Abbil- 
dung 31 ist die Anzahl der Einbrüche gegen das Jahr aufgetragen. 
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Abbildung 31: Einbrüche laut Polizeistatistik 


1 Angeregt durch ein Beispiel in dem Buch von Walter Krämer (1994). 
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Während der letzten Jahre ist sie mit etwa 450 bis 500 Einbrüchen 
pro Jahr nahezu unverändert geblieben. 

Mit diesem eigentlich erfreulichen Zustand gibt sich aber nicht 
jeder zufrieden. Die Firma Fehlan & Zeige vertreibt und installiert 
Alarmanlagen für Einfamilienhäuser. Dem Geschäftsführer er- 
scheint die polizeiliche Grafik wenig geeignet, neue Kunden anzu- 
locken. Deshalb entwirft er eine neue Werbebroschüre, wobei er, 
da er ein ehrlicher Mensch ist, dieselben Daten verwendet wie die 
Polizei. Mühelos findet er eine verheerende Entwicklung in Sachen 
Einbruch (Abbildung 32), ohne den Zahlen Unrecht anzutun. Um 
die gewünschte Dynamik zu erzielen, hat er in seiner Darstellung 
lediglich die Ordinate (senkrechte Achse) bei 450 Einbrüchen ab- 
geschnitten und deutlich gestreckt. 
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Abbildung 32: Werbewirksame Darstellung 
derselben Einbruchszahlen wie in Abbildung 31 


Unser Geschäftsführer ist auch ein begnadeter Texter. Bei genaue- 
rer Betrachtung fällt ihm auf, dass die Anzahl der Einbrüche von 
1999 bis Ende 2005 von 451 auf 472 pro Jahr angestiegen ist. Die 
Zuwachsrate liegt somit bei 21 Einbrüchen in sieben Jahren, also 
im Durchschnitt 21/7 = 3 Delikten jährlich. 2007 hat es mit 481 
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Fällen neun Einbrüche mehr gegeben als 2006. Das ist zwar immer 
noch fast nichts, aber trotzdem ist die Zuwachsrate um den beein- 
druckenden Faktor 9/3 = 3 erhöht oder, was dasselbe ist, von 100 
auf 300 Prozent angewachsen. In ihrer Werbebroschüre kann die 
Firma Fehlan & Zeige somit zur Abbildung 32 wahrheitsgetreu die 
Überschrift setzen: « Anstieg der Einbruchszuwachsrate auf 300 
Prozent in nur einem Jahr!» 

Die Noris Verbraucherbank warb in Hamburg mit der Behaup- 
tung «Hier gibt’s 72,4 % mehr Zinsen». Das war nicht gelogen, 
denn sie bot 3,5 Prozent Zinsen gegenüber einem Bundesdurch- 
schnitt von 2,03 Prozent. Die Differenz von 1,47 Prozentpunkten 
entspricht tatsächlich einem relativen Plus von 72,4 Prozent, denn 
1,4712,03 = 0,724. 

Eine diplomatische Variante lieferte der AP-Korrespondent Tho- 
mas Schmoll in seinem Beitrag zum Ausscheiden des früheren Bun- 
despräsidenten Roman Herzog. Ausgerechnet unter dem Motto 
«Wahrheit und Klarheit» schrieb er: «Vor Herzogs Amtsantritt 
hatten ihn in Umfragen rund 30 Prozent der Befragten abgelehnt. 
Ein Jahr später erhielt der am 5. April 1934 in Landshut geborene 
Niederbayer bereits über 50 Prozent Zuspruch.» Die Zahlen wer- 
den wohl stimmen, aber über die Zunahme der Akzeptanz des 
Bundespräsidenten sagen sie genauso viel wie Balthasar Matzbach 
über die Schlechtigkeit der Geschlechter: «Es gibt mehr schlechte 
Männer als gute Frauen.» 

Diese Art der Manipulation von Daten ist vor allem im Wirt- 
schaftsbereich verbreitet, aber durchaus auch in der Forschung zu 
beobachten. Mit derselben Methode kann man auch das Gegenteil 
erreichen und unliebsame Veränderungen verschönen. Die Nach- 
richt von einer sinkenden Inflationsrate hört sich zunächst einmal 
sehr positiv an. Aber in Wirklichkeit bedeutet sie, dass die Geldent- 
wertung trotzdem voranschreitet; sie ist nur langsamer geworden. 

Andererseits kann das Abschneiden und Strecken einer Skala 
auch durchaus sinnvoll sein. In Abbildung 33 ist eine Fieberkurve 
dargestellt. Vernünftigerweise beginnt die Ordinate bei 35 und 
nicht bei 0 Grad Celsius. Selbst geringe Schwankungen der Körper- 
temperatur von weniger als einem Grad lassen sich mit jedem Fie- 
berthermometer einwandfrei messen und können medizinisch be- 
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Abbildung 33: Fieberkurve 


deutsam sein. Deshalb muss die Ordinate so gewählt werden, dass 
diese Änderungen aus der Fieberkurve ablesbar sind. 

Bei der kritischen Betrachtung von Abbildungen sollten Sie stets 
überprüfen, ob die Achsen sinnvoll gewählt sind und die darge- 
stellten Daten beziehungsweise Messergebnisse wirklich das bele- 
gen, was die Autoren behaupten. 


... es wirkt 
Effekte der Ergebnispräsentation 


Man sollte alles so einfach wie möglich sehen, 
aber nicht einfacher. 
Albert Einstein 


Eine amerikanische Arbeitsgruppe (Forrow et al. 1992) hat mög- 
liche Auswirkungen der Ergebnispräsentation auf die Bereitschaft 
von Ärzten untersucht, ein bestimmtes Medikament zu verschrei- 
ben. Sie hat 235 Ärzten zwei Texte vorgelegt: 
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1. Die Sterberate als Folge koronarer Herzerkrankungen konnte 
durch die Behandlung mit Medikament A von 2,0 Prozent auf 1,6 
Prozent verringert werden. Diese Reduktion um 0,4 Prozent war 
statistisch signifikant. 

2. Durch die Behandlung mit Medikament B konnte eine relative 
Verringerung der Sterberate als Folge koronarer Herzerkrankun- 
gen um 20 Prozent erzielt werden. Diese Reduktion war statistisch 
signifikant. 


Eine Reduktion von 2 auf 1,6 Prozent, also um 0,4 Prozentpunkte, 
ist identisch mit einer relativen Verringerung um 20 Prozent, denn 
die Differenz 2,0 - 1,6 = 0,4 ist 0,4/2,0 = 0,2 beziehungsweise 20 
Prozent von 2,0. Diese Gleichwertigkeit fiel 108, das heißt etwa der 
Hälfte der befragten Ärzte, nicht auf. 97 von ihnen gaben an, sie 
würden eher das Medikament B verschreiben. 

Dieses erstaunliche Resultat wurde wenig später reproduziert. 
Eine italienische Arbeitsgruppe (Bobbio et al. 1994) bereitete die 
Ergebnisse einer Studie in unterschiedlicher Form auf und legte sie 
148 Ärzten vor. Dabei gab man auch hier vor, es handle sich um 
fünf verschiedene Studien mit fünf unterschiedlichen Präparaten. 
Die Ärzte sollten bestimmen, welches davon sie ihren Patienten am 
ehesten verschreiben würden. Es zeigte sich, dass das « Arzneimit- 
tel», über das die Testpersonen als Einziges vollständig informiert 
worden waren, indem man ihnen sämtliche Studienergebnisse mit- 
geteilt hatte, am schlechtesten abschnitt. Dagegen hielten die Pro- 
banden auch bei diesem Test das «Arzneimittel» für das wir- 
kungsvollste, bei dem relative Veränderungen angegeben wurden 
(entsprechend dem Anstieg der Einbrüche auf 300 Prozent in der 
obigen Kriminalstatistik). Kein einziger Arzt bemerkte, dass er 
fünfmal dieselben Daten gesehen hatte. 

Wir haben festgestellt, dass es auch in der Wissenschaft üblich 
ist, diejenige Darstellungsform zu wählen, die die Aussage der Au- 
toren besonders deutlich zum Ausdruck bringt. Die zum Schluss 
erwähnten Untersuchungen zeigen, dass die Präsentation einen 
größeren Einfluss auf das Verschreibungsverhalten hat als die Stu- 
dienergebnisse selbst. Solche Darstellungen gehören unserer Auf- 
fassung nach zu den leicht durchschaubaren Varianten der Infor- 
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mationsverschönerung. Der vorgelegte Text enthielt jeweils alle 
Zahlen, die erforderlich waren, um die Gleichwertigkeit der Daten 
zu erkennen. Die Leserschaft derartiger Texte offenbart also auch 
eine gewisse Sorglosigkeit, von der wir Sie mit unserem Buch 
befreien möchten. 


Sehhilfe 
Manipulative Führung des Auges 


Bei der grafischen Darstellung von Ergebnissen werden im Allge- 
meinen nicht nur die Messwerte selbst, sondern auch Kurven ge- 
zeigt, die den Verlauf der Ergebnisse deutlicher machen sollen. Mit 
Hilfe solcher Kurven lässt sich die erwünschte Interpretation der 
Daten viel besser nachvollziehen. Manchmal suggerieren sie aber 
auch Zusammenhänge, die ohne diese «Sehhilfe » gar nicht existie- 
ren. 

Abbildung 34 zeigt das Ergebnis einer ausgedachten Untersu- 
chung über die Wirkung einer Zahnpasta. Über einen Zeitraum 


Kariöse Zähne pro 
Gebiss und Jahr 
ER 
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Abbildung 34: Einfluss der verwendeten Zahnpastamenge (in Zentime- 

tern) auf die mittlere Anzahl kariöser Zähne pro Gebiss und Jahr 
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von fünf Jahren haben Versuchspersonen beim Zähneputzen im- 
mer eine genau festgelegte Menge Zahnpasta verwendet. Jeder 
Punkt stellt einen bestimmten Testteilnehmer dar. Aufgetragen ist 
die Anzahl der während der Erhebung aufgetretenen Kariesfälle 
gegen die verwendete Zahnpastamenge. Aus der Abbildung geht 
hervor, dass mit zunehmender Menge Deka-dent ein deutlicher 
Erkrankungsrückgang mit sehr steilem Kurvenabfall zu beobach- 
ten ist. Bei Verwendung von zwei oder mehr Zentimeter Zahn- 
pasta pro Putzvorgang wird sogar absolute Kariesfreiheit er- 
reicht. 

In Abbildung 35 sind dieselben Werte aufgetragen. Diesmal 
wurde die das Auge führende Kurve andersherum gezeichnet. Mit 
zunehmender Zahnpastamenge nimmt, in einem schmalen Be- 
reich, die Karieshäufigkeit steil zu. Wie die Kurve durch die Punkte 
gelegt wird, ist völlig willkürlich. Die Daten sind ohne zusätzliche 
Messergebnisse bei hohen und niedrigen Dosen wertlos. Erst wenn 
bei Anwendung von weniger als anderthalb Zentimeter Deka-dent 
viele und bei mehr als zwei Zentimetern weniger oder keine Zähne 
kariös sind, gibt es einen Grund, den ersten Kurvenverlauf zu be- 
vorzugen. 

Man kann natürlich einwenden, es sei abwegig, anzunehmen, 
dass viel Zahnpasta viel Karies verursacht, und folglich müsse die 
erste Deutung richtig sein. Wenn wir aber so argumentieren, dann 
fließen bereits unsere Vorurteile über das Produkt in die Interpre- 
tation der Ergebnisse ein. 

Zum Thema Zahnpasta noch eine halbernste Anmerkung. Es 
gibt wohl kaum eine Tube, auf der nicht «klinisch getestet » steht. 
Aber haben Sie jemals eine gesehen, auf der auch vermerkt war, ob 
und wie die Zahnpasta den Test bestanden hat? 

Zurück zu unserem Beispiel. Es hätte noch schlimmer kommen 
können. Eine Untersuchung in einem weiteren Dosisbereich 
könnte das in Abbildung 36 dargestellte Ergebnis liefern. Hier ist 
die Zahnpasta völlig wirkungslos, und ihre Menge beeinflusst die 
Karieshäufigkeit überhaupt nicht. 

Wer glaubt, dass so etwas in der Wissenschaft nicht vorkommt, 
täuscht sich. Die suggestive Kraft solcher das Auge führenden Li- 
nien (Sehhilfen) wird leicht unterschätzt. Wir haben selber über 
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Abbildung 35: Andere Interpretation des Einflusses der Zahnpastamenge 
(in Zentimetern) auf die mittlere Anzahl kariöser Zähne pro Gebiss und 
Jahr (dieselben Daten wie Abbildung 34) 
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Abbildung 36: Möglicher Zusammenhang zwischen der verwendeten 
Zahnpastamenge (in Zentimetern) und der mittleren Anzahl kariöser 
Zähne pro Gebiss und Jahr 


viele Jahre hinweg in zahlreichen Fortbildungsveranstaltungen ver- 
schiedene derartige manipulative Abbildungen vorgestellt, ohne 
die darin steckende Willkür zu bemerken. Um sich davor zu schüt- 
zen, können Sie als «Schnelltest» versuchen, sich die eingezeich- 
nete Kurve wegzudenken oder sie tatsächlich zu entfernen. Dann 
können Sie die Daten unvoreingenommen betrachten und selbst 
eine Kurve hindurchziehen. 


Do it yourself 
Wer selbst manipuliert, fällt nicht mehr 
so leicht darauf herein 


Im Folgenden möchten wir Sie dazu anstiften, selbst einmal zu 
manipulieren. Die erste Aufgabe ist die einfachste, die letzte die 
schwierigste. Lassen Sie sich etwas einfallen, eine Grafik und einen 
Text. Lügen Sie mit der Wahrheit. Lösungsvorschläge finden Sie 
am Ende des Buches im Anhang. 


Milchpreise: Vom Saulus zum Paulus 

Sie sind seit sieben Jahren Präsident eines von einer schweren Wirt- 
schaftskrise gebeutelten Landes. Neuwahlen stehen ins Haus. Die 
Inflation hat katastrophale Ausmaße erreicht. Die Preise für einen 
Liter Milch während der letzten Jahre sind in Tabelle 27 aufgelistet. 


Tabelle 27: Milchpreise in einem gebeutelten Land 


Jahr Milchpreis in Penunzen 

1992 17 

1993 34 

1994 70 

1995 130 

1996 280 

1997 540 

1998 1100 

1999 2150 Der Milchpreis bei Ihrem Amtsantritt 
2000 4100 

2001 7300 

2002 12 800 

2003 20000 

2004 30000 

2005 42.000 

2006 56000 Der heutige Milchpreis 
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Sie wollen wiedergewählt werden. Machen Sie den Leuten klar, 
dass Sie einen außerordentlichen Beitrag zur Geldwertstabilität ge- 
leistet haben. 


Zinsen: Weniger ist mehr 

Sie sind Werbemanager beim Bankhaus Schröpf. Die Bank gibt 
deutlich niedrigere Zinsen als die andere Bank am Ort. Jetzt laufen 
Ihnen die Kunden weg. Ihre Gehaltserhöhung ist gefährdet, wenn 
Sie sich nicht einen wirksamen Text mitsamt einer Grafik einfallen 
lassen, der die Kunden überzeugt zu bleiben. Die für die verschie- 
denen Kalenderjahre gewährten Guthabenzinsen zeigt Tabelle 28. 

Es geht ums Geld, um Ihr Geld... 


Tabelle 28: Zinsentwicklung für Guthaben in einem deutschen Städtchen 


Jahr 2003 2004 2005 2006 
Andere Bank 3,0% 3,4% 4,1% 45% 
Bankhaus Schröpf 1,5% 2,4% 3,2% 3,8% 


Inflationsrate: Mehr ist weniger 

Sie sind seit zehn Jahren Präsident einer Bananenrepublik. Neu- 
wahlen stehen ins Haus. Ihr Gegner ist vor Ihnen zehn Jahre lang 
Präsident gewesen. Er führt einen sehr wirksamen Wahlkampf 
gegen Sie. Sein Hauptargument ist, dass Sie an der hohen Infla- 
tionsrate schuld seien. Die durchschnittliche Inflationsrate betrug 
während seiner Amtszeit 11,0 und während Ihrer Amtszeit 19,3 
Prozent. 

Sie wollen wiedergewählt werden ... 
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Die Ursache aus Anlass 
des Grundes 
Kausalität und Korrelation 


Wenn einer von uns stirbt, 
dann gehe ich nach München. 
Otto Raabe 


In diesem Kapitel werden Sie etwas über Ereignisse oder Merkmale 
erfahren, die gemeinsam auftreten. Solche gemeinsamen Auftritte, 
so genannte Korrelationen oder Assoziationen, werfen schnell die 
Frage auf, ob diese Dinge etwas miteinander zu tun haben oder gar 
das eine die Ursache des anderen ist. 

Das Bedürfnis nach Erklärungen verleitet dazu, Korrelationen 
voreilig als Ursache-Wirkung-Beziehung zu verstehen. Dies ist 
eine der Grundlagen für die blühenden Geschäfte nicht nur im Ge- 
sundheitswesen. Viele denken: «Ich war krank, ich war beim Arzt, 
jetzt bin ich gesund - also hat mir der Arzt geholfen.» Aber nicht 
einmal die Wissenschaft ist in der Lage, zwischen einem bloßen 
Zusammenhang und einer Ursache-Wirkung-Beziehung klar zu 
unterscheiden. Was in der Vergangenheit Aderlässe und Abführku- 
ren waren, sind heute Unmengen oft kostspieliger Medikamente 
mit fraglicher Wirkung, die zur Vorbeugung oder Behandlung von 
Erkrankungen verschrieben, verkauft und eingenommen werden. 
Zahlreiche Wissenschaftszweige beschäftigen sich mit der Suche 
nach Korrelationen, allen voran die Epidemiologie. Da eine Korre- 
lation bei einer Ursache-Wirkung-Beziehung in jedem Fall vorliegt 
(aber nicht unbedingt andersherum), können mit dieser Methode 
auch bedeutende Entdeckungen gemacht werden: 

Der Arzt John Snow (1813-1858) markierte im Jahre 1854 die 
Wohnorte einiger hundert Choleraopfer in London auf einem 
Stadtplan. Da es in der Nähe der öffentlichen Wasserpumpe in der 
Broad Street besonders viele Fälle gab, vermutete Snow, dass das 
Wasser auf irgendeine Art vergiftet sei. Die Pumpe wurde darauf- 
hin außer Betrieb gesetzt und damit die Epidemie in London einge- 
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dämmt. Erst im Jahre 1883 gelang es Robert Koch, die eigentliche 
Ursache, das Bakterium mit dem informativen Namen vibrio cho- 
lerae, zu identifizieren. 

Ein anderes Beispiel: Wir könnten in einer Studie herausfinden, 
dass große Menschen mehr Geld verdienen als kleine. Das Gehalt 
korreliert also mit der Körpergröße. Die Statistik sagt uns aller- 
dings nicht, warum dies so ist. Sind gut bezahlte Menschen größer, 
weil sie sich besser ernähren können? Kriegen große Menschen 
mehr Geld, weil sie mehr wegschaffen? Wurden in der Studie 
Skandinavier und Chinesen verglichen? Oder wurden Kinder, 
Frauen und Männer in einen Topf geworfen? Da Kinder nicht 
wegen ihrer Größe, sondern wegen ihres Alters (zumindest bei 
uns) nicht arbeiten dürfen und kein Gehalt beziehen und Frauen in 
der Regel weniger verdienen als Männer, wäre obiges Ergebnis 
zwar immer noch statistisch signifikant, aber keine tief gehende 
Erkenntnis. 


Nehmen wir fürs Nächste an, dass zwei Ereignisse oder Merkmale 
A undB (keine Angst, diese Buchstaben werden in Beispielen gleich 
zum Leben erweckt) miteinander korrelieren. Dann gibt es fünf 
Möglichkeiten, weshalb sie dies tun: 


1. A ist die Ursache von B. 

2.B ist die Ursache von A. 

3. A und B haben eine gemeinsame Ursache. 

4.Die Korrelation beruht auf einem systematischen Fehler. 
5. Die Korrelation ist zufällig, trotz statistischer Signifikanz. 


Welche der genannten Möglichkeiten in speziellen Fällen zutrifft 
oder zumindest vernünftig erscheint, vermag die Statistik nicht zu 
entscheiden. Die Deutung von Ergebnissen bleibt uns selbst über- 
lassen. In den nächsten Abschnitten folgen einige Beispiele, die für 
etwas Durchblick im Korrelationsdschungel sorgen sollen. 


173 


Kein Rauch ohne Feuer 
A ist die Ursache von B 


Kein Rauch ohne Feuer, heißt es im Volksmund. Körperliche Ver- 
letzungen und Schmerz treten immer paarweise auf, und was dabei 
Ursache und Wirkung ist, ist wohl wenig strittig. Einer Schwanger- 
schaft ging bis zur Einführung der künstlichen Befruchtung immer 
Geschlechtsverkehr voraus, aber nicht auf jeden Geschlechtsver- 
kehr folgt eine Schwangerschaft. Der Geschlechtsverkehr war, for- 
mal ausgedrückt, eine notwendige, aber keine hinreichende Bedin- 
gung für eine Schwangerschaft. Heute ist er noch nicht einmal 
mehr notwendig. Einen kausalen Zusammenhang zu entdecken 
wird zusätzlich enorm erschwert durch die neunmonatige Latenz- 
zeit zwischen Ursache und Wirkung, deren Zusammenhang trotz- 
dem mittlerweile allgemein anerkannt ist. 

Notwendige Ursache einer bakteriellen Infektion sind Bakterien. 
Aber auch sie sind keine hinreichende Bedingung, denn sonst ginge 
es uns schlecht. Nicht jeder Kontakt mit ihnen führt zu einer Er- 
krankung. Unser Immunsystem schützt uns sehr effektiv. 

Wir Menschen haben ein großes Bedürfnis nach Erklärungen für 
Zusammenhänge. Das ist auch gut so. Denn wenn man Kausalzu- 
sammenhänge kennt, kann man gezielt eingreifen. Die Kenntnis 
der Ursache für Infektionskrankheiten ermöglicht es uns, das An- 
steckungsrisiko durch gezielte hygienische Maßnahmen oder 
durch Impfungen zu verringern. Viele Infektionskrankheiten kön- 
nen nach ihrem Ausbruch kausal mit Antibiotika behandelt wer- 
den. Die Kenntnis der Ursache von Infektionen hat unsere durch- 
schnittliche Lebenserwartung deutlich erhöht. 

Andererseits sind wir stark gefährdet, kausale Zusammenhänge 
auch dort zu sehen, wo in Wirklichkeit gar keine sind. Wenn wir 
dann aufgrund unserer vermeintlichen Kenntnisse in den Prozess 
eingreifen, ist die Wirkung nicht vorhersehbar. Dazu folgende gar 
gräuliche Mär (frei nach Meyer zu Schwabedissen): Ein Außerirdi- 
scher ist in einem verregneten norddeutschen Städtchen gelandet 
und sieht sich in der Fußgängerzone um. Unser Alien weiß nicht, 
was Regen ist, und er ist blind für Regenschirme. Er stellt fest, dass 
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alle, die langsam gehen, entspannt und fröhlich sind, während alle, 
die laufen, einen eher unglücklichen Eindruck machen. Eine ganz 
strenge Korrelation. Das weckt den Fürsorgeinstinkt unseres Au- 
ßerirdischen. Man müsse die Unglücklichen daran hindern, schnell 
zu laufen, denkt er sich. Vielleicht sollte man die Füße mit Bleiklöt- 
zen belasten, oder, viel eleganter, einfach amputieren ? Gesagt, ge- 
tan, mit dem Laserschwert ist das kein Problem. Aber die Lösung 
war es auch nicht. Im Nachhinein musste er feststellen, dass seine 
gut gemeinte Aktion erstens nichts genützt hat und zweitens die 
Füße ihren ehemaligen Besitzern vielleicht auch Vorteile boten. 

Das letzte Beispiel zeigt, dass man sich sehr leicht bei der Inter- 
pretation von nachweislichen und reproduzierbaren Korrelationen 
täuschen kann. In den folgenden Abschnitten werden wir noch 
weitere Beispiele kennen lernen. 


Der Sonne Bahn lenkt der Hahn 
B ist die Ursache von A 


An einem Abhang 
ist mir Neigung Pflicht. 
Balthasar Matzbach 


Wenn auf ein Ereignis A immer wieder das Ereignis B folgt, dann 
scheint es vernünftig, A für die Ursache und B für die Wirkung zu 
halten. Häufig liegen wir mit dieser Vermutung auch tatsächlich 
richtig. Wenn der Hammer den Daumen trifft, dann halte ich das 
für die Ursache des unmittelbar darauf folgenden Schmerzes. Man 
kann sich aber auch täuschen. Wenn der Hahn kräht, dann dauert 
es nicht mehr lange, bis die Sonne aufgeht. Während des Tages 
kräht der Hahn ab und zu. Stellt der Hahn schließlich das Krähen 
ein, dann geht die Sonne wiederum bald unter. Hält also das Krä- 
hen des Hahns die Sonne am Himmel? Hier ist der Irrtum offen- 
sichtlich. In weniger leicht durchschaubaren Fällen kann uns die 
zeitliche Reihenfolge aber einen bösen Streich spielen. 

Für die Bewohner der Neuen Hebriden war es ganz natürlich, 
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von Läusen besiedelt zu sein. Verließen die Läuse ihren Wirt, 
wurde er krank und bekam Fieber. Die Menschen waren davon 
überzeugt, dass man auf einem Fieberkranken immer wieder Läuse 
aussetzen muss, um das Fieber zu vertreiben. Und in den meisten 
Fällen gab ihnen der Erfolg Recht. Die Läuse liefen sich wieder auf 
dem Kranken ansiedeln, und wenig später ging es dem Patienten 
besser. Allerdings wäre es ihm ohne Läuse wahrscheinlich noch 
besser gegangen, denn hier wurden Ursache und Wirkung ver- 
wechselt. Die Läuse verlassen den Kranken, weil er Fieber hat - sie 
kriegen ganz einfach heiße Füße. Und wenn die Hitzewelle vorüber 
ist, kommen sie gerne wieder (Krämer & Trenkler 1996). 

In einer epidemiologischen Studie wurde gezeigt, dass die Ein- 
nahme des Schmerzmittels Paracetamol mit dem erhöhten Auftre- 
ten von Zwölffingerdarmgeschwüren korreliert. Also liegt der 
Schluss nahe, dass Paracetamol die Geschwüre verursacht. Es 
könnte aber auch sein, dass Ärzte Patienten mit derartigen Proble- 
men nur ungern das Konkurrenzpräparat Acetylsalicylsäure (ASS) 
verschreiben, weil dieses die Symptome solcher Geschwüre ver- 
stärkt. Das Geschwür «verursacht» dann sozusagen die Einnahme 
von Paracetamol, und nicht umgekehrt (Skrabanek & McCormick 
1995). 

Offensichtlich verrät die zeitliche Reihenfolge von miteinander 
korrelierenden Ereignissen nicht unbedingt, welches die Ursache 
und welches die Wirkung ist. 


Zu viel des Guten? 
A und B haben eine gemeinsame Ursache 


Abendrot mokt Wedder god. 
Volksmund 


Eine Untersuchung der Feuerwehreinsätze in der Syldavischen 
Hauptstadt Syldenna ergab mit erdrückender statistischer Signifi- 
kanz, dass der Brandschaden mit der Anzahl der jeweils eingesetz- 
ten Feuerwehrleute korrelierte: Je mehr Feuerwehrleute im Einsatz 
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waren, umso größer war der Schaden. Die örtliche Feuerwehr rea- 
gierte mit Betroffenheit. Der Bürgermeister verhängte sofort einen 
Einstellungsstopp und reduzierte den Etat. Leider hatte er die 
Rechnung ohne eine entscheidende Variable im Hintergrund ge- 
macht, denn die Größe des Brandes bedingt sowohl die Anzahl der 
eingesetzten Feuerwehrleute als auch die Größe des Schadens. 
Während bei einem kleinen Zimmerbrand ein einziger Feuerwehr- 
mann ausreicht, um das Feuer unter Kontrolle zu bringen, haben 
beim Großbrand eines Fabrikgeländes selbst ein halbes Dutzend 
Löschzüge große Mühe, die Lage in den Griff zu bekommen. Da- 
her ist es kein Wunder, dass der Schaden mit der Anzahl der einge- 
setzten Feuerwehrleute korreliert. 

Ein weiteres Beispiel dieser Art ist das regelmäßig kursierende 
Gerücht, dass lange Verweilzeiten im Krankenhaus nachteilig für 
die Patienten seien. Natürlich sind Patienten, die das Krankenhaus 
kurz nach der Einlieferung wieder verlassen, gesünder als solche, 
die sehr lange bleiben müssen. Das liegt aber nicht daran, dass der 
lange Aufenthalt im Krankenhaus ungesund wäre, sondern daran, 
dass besonders schwere Erkrankungen im Allgemeinen eine län- 
gere Behandlung erfordern. Dieser Zusammenhang wird jedoch 
von einigen in der Welt herumtingelnden (Lodge 1996) Krebsfor- 
schern nicht beachtet. Krebspatienten einer Strahlentherapie 
haben meist eine schlechtere Aussicht auf Heilung, wenn ihre Be- 
handlung lange gedauert hat. Das haben führende Radioonkolo- 
gen aus retrospektiv erhobenen Daten erfahren und kurzum dafür 
plädiert, dass eine Strahlentherapie in der kürzestmöglichen Zeit 
verabreicht werden müsse.' Allerdings haben sie dabei womöglich 
die Wirkung zur Ursache erhoben. Patienten mit einer fortgeschrit- 
teneren Krebserkrankung (und entsprechend schlechter Prognose) 
erhalten meist eine höhere Gesamtdosis, die in vielen kleinen Por- 
tionen gegeben wird. Da man die Dosis pro Woche im Allgemeinen 
unverändert lässt, dauert die Behandlung bei Patienten mit schlech- 
ter Prognose länger. Die schlechte Prognose bewirkt die längere Be- 


1 Beispielsweise Withers (1988) oder Fowler (1992). Es gibt aber Dut- 
zende von weiteren Arbeiten mit immer derselben Aussage und oft auch 
denselben Autoren. 
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handlungsdauer, und nicht andersherum, wie es in zahlreichen 
Lehrbüchern steht (Steel 1993, Hall 1994, Scherer & Sack 1996, 
Perez & Brady 1997). Viele Jahre haben wir uns erfolglos bemüht, 
unseren Fachkollegen diese Überlegungen nahe zu bringen (Beck- 
Bornholdt 1993, Dubben 1994, Beck-Bornholdt & Dubben 1995, 
Dubben 1999). 

Korrelationen treten somit nicht nur bei Ursache und Wirkung 
auf, sondern auch dann, wenn zwei Wirkungen eine gemeinsame 
Ursache haben. 


Der Segen der globalen Erwärmung 
Nicht-kausale zeitliche Beziehungen 


«Warum hat das Flugzeug einen Propeller ? » 
«Damit der Pilot nicht schwitzt!» 

«Blödsinn!» 

«Doch! Ich habe einmal einen Piloten gesehen, 
bei dem der Propeller ausgefallen ist. 

Was meinst du, wie der geschwitzt hat!» 


Endlich können wir einmal mit einem eigenen Forschungsergebnis 
aufwarten. Es sind zwar nicht unsere Daten, aber es ist unsere in- 
tellektuelle Leistung, die zu einem bahnbrechenden Ergebnis ge- 
führt hat. In Abbildung 37 haben wir die relative Oberflächentem- 
peratur der Erde gegen die Lebenserwartung Neugeborener des 
gleichen Jahres aufgetragen. Für beide Geschlechter ergab sich eine 
statistisch signifikante Beziehung zwischen Lebenserwartung und 
Temperatur (p = 0,0012 bzw. p = 0,0018). Die zusätzliche Lebens- 
erwartung pro Grad Celsius beträgt 38 Jahre (95 %-Vertrauens- 
breich: 19 - 58) bei den Männern und 42 Jahre (95 %VB: 20 - 64) 
bei den Frauen. Je wärmer, umso länger leben wir! Ob es daran 
liegt, dass wir uns wohler fühlen? Oder weil der Verschleiß an 
Lebensenergie geringer ist? So gesehen ist die globale Erwärmung 
jedenfalls alles andere als eine Katastrophe. 

Klingt plausibel, oder? Aber auch eine umgekehrte Kausalität ist 
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Abbildung 37: Relative Oberflächentemperatur der Erde (nördliche 
Hemisphäre; bezogen auf die mittlere Temperatur zwischen 1951 und 
1980) gegen die Lebenserwartung österreichischer Neugeborener des 
gleichen Jahres. Temperaturdaten wie in Abbildung 18 im Kapitel « Heiße 
Luft» (Seite 87). Quelle: NASA Goddard Institute for Space Studies 
(www.giss.nasa.gov/data/update/gistemp/graphs/index.html). Lebens- 
erwartungsdaten: Österreich-Lexikon, Verlagsgemeinschaft Österreich- 
Lexikon, 2000 


denkbar. Bei älteren Menschen, auf jeden Fall aber bei den Eltern 
eines der Autoren, ist immer gut geheizt. Dass die globale Erwär- 
mung anthropogen ist, verursacht durch Überalterung verbunden 
mit exzessivem Heizen, kann daher nicht ausgeschlossen werden. 


In einer weiteren Untersuchung haben wir dieselben Temperatur- 
daten gegen die Kohlendioxid-Konzentration in der Atmosphäre 
des jeweiligen Jahres aufgetragen (Abbildung 38). Mit steigender 
Temperatur nimmt der Kohlendioxid-Gehalt statistisch signifikant 
zu (p < 0,0001). Dies ist leicht zu erklären. In kaltem Wasser kann 
man sehr viel mehr Kohlendioxid lösen als in warmem.” Das wis- 


2 Niedrige Temperaturen begünstigen die physikalische Lösung von Koh- 
lendioxid in Wasser (Römpp 1995). Dies folgt aus dem Henry’schen Ge- 
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sen nicht nur Chemiker, sondern alle, die schon mal eine warme 
Cola-Flasche geöffnet haben. Das Experiment geht natürlich auch 
mit Mineralwasser, Bier oder Champagner. In den Meeren unseres 
Planeten ist etwa 50-mal mehr Kohlendioxid gebunden als in der 
Atmosphäre. Und wenn sich diese Meere etwas erwärmen, entlas- 
sen sie Kohlendioxid in die Luft, sodass dort die Konzentration zu- 
nimmt. Natürlich kann es auch hier andersrum sein. Dann müsste 
das Kohlendioxid in der Luft irgendwie dafür sorgen, dass es wär- 
mer wird. Diese Interpretation ist zurzeit sehr populär und wird 
Treibhauseffekt genannt. 
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Abbildung 38: Kohlendioxid-Konzentration in der Atmosphäre gegen die 
relative Oberflächentemperatur der Erde (nördliche Hemisphäre; bezo- 
gen auf die mittlere Temperatur zwischen 1951 und 1980). Temperaturda- 
ten wie in Abbildung 15 im Kapitel « Heiße Luft» (Seite 77). Quelle: NASA 
Goddard Institute for Space Studies (www.giss.nasa.gov/data/update/ 
gistemp/graphs/index.html) 


setz, das von W. Henry (1775-1836, Fabrikbesitzer in Manchester) im 
Jahre 1803 aufgestellt wurde. Es ist ein Gasgesetz im erweiterten Sinne und 
besagt, dass die Löslichkeit eines Gases in einer Flüssigkeit vom Partial- 
druck des Gases über der Lösung und von der Temperatur der Lösung ab- 
hängt. Für die meisten Gase nimmt die Löslichkeit mit steigender Tempe- 
ratur ab - das gilt auch für Kohlendioxid. 
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Abbildung 39: Korrelation der Geburten mit der Anzahl der brütenden 
Storchenpaare in der Bundesrepublik Deutschland (nach Sies 1988). 


Trägt man eine Größe, die sich mit der Zeit ändert, gegen eine an- 
dere auf, die ebenfalls zeitlich variiert, dann ergibt sich immer eine 
Korrelation, auch ohne jeglichen kausalen Zusammenhang. Das 
klassische Beispiel für diese Art der Korrelation ist der Zusammen- 
hang zwischen dem Geburtenrückgang und der sinkenden Zahl 
von Störchen (Abbildung 39), über die sogar in der Zeitschrift 
Nature° berichtet wurde. Diese Abbildung legt nahe, dass tatsäch- 
lich Störche die Babys bringen. Eine genaue Betrachtung der Kur- 
ven zeigt außerdem, dass Störche erst ab einem Alter von etwa zwei 
Jahren im Zustelldienst menschlichen Nachwuchses eingestellt 
werden. Die Anzahl der brütenden Storchenpaare steigt zwischen 
1977 und 1978 leicht an. Dieser Anstieg macht sich erst zwei Jahre 
später zwischen 1979 und 1980 bei den Neugeborenen bemerkbar. 
So einfach kann Wissenschaft sein. 

In der Literatur gibt es noch zahlreiche weitere Beispiele dieser 
Art. So wurde in einer Studie aus Chicago gezeigt, dass der Bierpreis 
mit dem Priestergehalt korreliert (Gibbons & Davis 1984). Ähnlich 


3 «There is concern in West Germany over the falling birth rate. The ac- 
companying graph might suggest a solution that every child knows makes 
sense» (Sies 1988). 


hängt der Deutsche Aktienindex von der Anzahl der Einwohner 
Indiens und die Anzahl der am Hamburger Flughafen abgefertigten 
Passagiere von der Energieproduktion in den USA ab ... Alles kor- 
reliert miteinander, aber nicht unbedingt kausal. 


Die Beispiele machen deutlich, dass es sehr leicht ist, Korrelationen 
zwischen Parametern zu finden, die sich mit der Zeit verändern. 
Entsprechend häufig werden sich dabei unsinnige Verbindungen 
ergeben. 


Von Schnäbeln und Vögeln 
Systematische Fehler: Inhomogenitätskorrelation 


Die folgende Fragestellung — geleitet von unserem Interesse an der 
Vogelkunde - haben wir uns selber ausgedacht. Wir wollten wis- 
sen, wie die Schnabellänge unserer gefiederten Freunde mit ihrem 
Körpergewicht zusammenhängt. Um zu einer einigermaßen reprä- 
sentativen Anzahl an Untersuchungsobjekten zu kommen, haben 
wir Hansvögel und Bertvögel (Abbildung 40) gemeinsam in die 
Studie aufgenommen. 

Die Tiere wurden artgerecht vermessen, die Daten in Abbildung 


Albert Herbert Hubert Hans-Peter Hans-Hermann Hans-Wurst 


Abbildung 40: Hansvögel und Bertvögel der Studie 
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41 gegeneinander aufgetragen und ausgewertet. Das Ergebnis ist 
die eingezeichnete Gerade. Zuvor hatten wir die Hypothese aufge- 
stellt, dass das Gewicht bei Vögeln mit großen Schnäbeln beson- 
ders gering ist, weil das spezifische Gewicht des leeren Schnabels 
geringer ist als das des restlichen Vogels. Unsere Vorstellung wurde 
dann auch durch die Datenanalyse bestätigt. Die Schnabellänge 
nimmt demzufolge mit dem Körpergewicht ab (p = 0,027), und 
zwar um 0,9 Zentimeter pro Kilogramm. Eine ornithologische 
Sensation, denn so etwas hatte noch niemand vor uns gemessen. 
Leider mussten wir bald einsehen, dass man Hänse und Berte nicht 
in einen Topf werfen darf. Bei den Hänsen für sich genommen 
nimmt die Schnabellänge um 3 Zentimeter pro Kilogramm zu; bei 
den Berten allein um 0,5 Zentimeter pro Kilo. Schade, vorbei war 
es mit unserer Hypothese und dem Ornithologen-Ruhm. Jetzt ver- 
suchen wir uns als Anthropologen. 

Am Menschen stellten wir fest, dass die mittlere Länge des Kopf- 
haares mit der Körpergröße abnimmt. Um auf statistisch aussage- 
fähige Zahlen zu kommen, haben wir dabei schlauerweise Frauen 
und Männer in die Studie aufgenommen. 

Ganz ähnlich wie uns mit den Vögeln erging es Slevin und Kol- 
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Abbildung 41: Schnabellänge und Gewicht der in der vorherigen Abbil- 
dung gezeigten Vögel 


183 


legen (1992) vom Christie Hospital in Manchester. Sie untersuch- 
ten den Einfluss der Behandlungsdauer auf das Ergebnis einer 
Strahlentherapie von Tumoren. Sie fanden heraus, dass die Hei- 
lungsrate abnimmt, je länger die Behandlung dauert, und forder- 
ten, man solle die Behandlungsdauer verkürzen. Das gilt bei 
genauerer Betrachtung aber nur, wenn man große und kleine 
Tumoren gemeinsam auswertet. Im Kleingedruckten ihrer Arbeit 
fanden wir zusätzliche interessante Informationen: Bei kleinen 
Tumoren hatte man bei längerer Behandlungsdauer eine höhere 
Heilungsrate - und bei großen Tumoren auch. 

Die in diesen Beispielen beschriebene Inhomogenitätskorrela- 
tion kann entstehen, wenn verschiedene Dinge in einen Topf ge- 
worfen werden. Sie ist eine enge Verwandte von «Simpsons Para- 
doxon» im Abschnitt «Zweimal verloren und doch gewonnen». 


Der Hutskandal 
Der ökologische Fehlschluss 


Der Ozean der irrelevanten Variablen ist größer 
als der Ozean der Dummheit, 

und das will schon etwas heißen. 

Stanistaw Lem 


Die staatliche epidemiologische Untersuchung der Huttragege- 
wohnbheiten und der Inzidenz von Lungenkrebs im Staatenverbund 
Balkonur, Bordurien und Syldavien brachte es eindeutig an den 
Tag: Huttragen erzeugt Lungenkrebs. Die Ergebnisse sind in Ab- 
bildung 42 zusammengefasst. Je größer der Anteil an Hutträgern 
in den einzelnen Ländern ist, umso größer ist auch der Anteil der 
Personen, die an Lungenkrebs erkranken. Kein Wunder, dass in 
den betroffenen Staaten das Tragen von Hüten sehr bald als ge- 
sundheitsschädigend angesehen wurde. In vielen Restaurants wur- 
den eigens Hutträgerbereiche eingerichtet, um Ausschreitungen zu 
vermeiden. Auf Inlandsflügen wurde das Tragen von Hüten voll- 
ständig untersagt, sogar auf der Toilette. 
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Abbildung 42: Häufigkeit von Lungenkrebs und Huttragegewohnheiten in 
den Kleinstaaten Balkonur, Bordurien und Syldavien 


Das konnte die Hutmacherindustrie des Kleinstaatenverbundes 
nicht hinnehmen und wartete mit einem Gegengutachten auf. Um 
Zeit und Geld zu sparen, bediente sie sich derselben öffentlich zu- 
gänglichen Daten wie die staatlichen Epidemiologen und startete 
ihren mittlerweile legendären «Hut tut gut»-Werbefeldzug. Die 
Ergebnisse der Hutmacher (Abbildung 43) sind ebenfalls eindeu- 
tig. Hüte schützen vor Lungenkrebs. Unter den Hutträgern beträgt 
die Lungenkrebsrate 17 Prozent. Ohne Hut liegt die Lungenkrebs- 
rate bei 56 Prozent. Das ist ein um den Faktor 56/17=3,3 erhöhtes 
Risiko durch das Weglassen des Hutes. 

Diese Erkenntnis hatte natürlich zur Folge, dass zahlreiche Re- 
staurantbesitzer und alle Inlandsfluglinien mit Schadenersatzkla- 
gen überhäuft wurden. Im Namen des Volkes - wer hat nun Recht? 
Um diese Frage zu klären, schauen wir uns am besten das gesamte 
Volk an (Abbildung 44). Dann können wir nichts übersehen. Es 
wird dem Leser sicher nicht schwer fallen, den Wahrheitsgehalt der 
Ergebnisdarstellungen zu überprüfen. Beide Darstellungen sind 
richtig. Sie werden erst dann widersprüchlich, wenn man in beide 
Darstellungen eine Kausalität hineininterpretiert. Da die Daten 
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Abbildung 43: Die im «Werbefeldzug Hut tut gut» dargestellten Ergeb- 
nisse der Hutmacherindustrie zum Zusammenhang zwischen der Lungen- 
krebsrate und den Huttragegewohnheiten 
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Abbildung 44: Das gesamte Volk der Staaten Syldavien, Bordurien und 
Balkonur mit Hüten und Lungenkrebsen (nach Rosen 1985) 
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widersprüchliche Interpretationen zulassen, sollte man sich davor 
hüten, einer der beiden zu glauben. 


Zahlreiche Empfehlungen für «gesunde Ernährung» basieren auf 
epidemiologischen Untersuchungen, bei denen die Essgewohnhei- 
ten mit der Häufigkeit von Erkrankungen in verschiedenen Län- 
dern verglichen werden. So wurde beispielsweise festgestellt, dass 
bei einigen Völkern, die sehr ballaststoffreiche Kost zu sich neh- 
men, die Häufigkeit von Dickdarmkrebs relativ gering ist. Auch 
wurde ein positiver Zusammenhang zwischen dem Verbrauch an 
gesättigten Fettsäuren und dem Auftreten von Brustkrebs in ver- 
schiedenen Ländern beobachtet. Diese Ergebnisse haben Ernäh- 
rungswissenschaftler dazu veranlasst, eine Änderung unserer Er- 
nährung zu empfehlen (vergleiche Skrabanek und McCormick 
1995). 

Eine Ursache-Wirkung-Beziehung führt immer zu einer Korrela- 
tion. Wie unsere Beispiele zeigen, kann man daraus aber nicht fol- 
gern, dass eine Korrelation immer auf eine Kausalität hinweist. 
Trotzdem wird häufig auch in wissenschaftlichen Fachzeitschriften 
Korrelation mit Kausalität gleichgesetzt. Die dazugehörigen signi- 
fikanten Korrelationskoeffizienten und Regressionsanalysen ma- 
chen diese falsche Schlussfolgerung auch nicht richtiger. Jedes Jahr 
werden Milliarden für die Untersuchung von Korrelationen ausge- 
geben. Das Cholera-Beispiel zeigt, dass dies durchaus nützlich sein 
kann. Wir befürchten, dass dies eher die Ausnahme ist. 


Babylonische Sprachverwirrung 
Interpretations- und Übertragungsfehler 


Die Grenzen meiner Sprache 
bedeuten die Grenzen meiner Welt. 
Ludwig Wittgenstein 


Bei der mündlichen und schriftlichen Übermittlung von wissen- 
schaftlichen Erkenntnissen kommt es zu Fehlern, und in der Medi- 
zin können diese für Sie und Ihre Gesundheit ernste Folgen haben. 
Wenn die vorsichtige Vermutung eines Wissenschaftlers, das neue 
Medikament A könnte besser sein als das bewährte Standardmedi- 
kament B, von einem Arzt als unumstößliche Tatsache aufgefasst 
wird, kann dies zur Fehlbehandlung zahlreicher Patienten führen. 

Als Verfasser und Leser wissenschaftlicher Arbeiten sind uns 
zwei grundlegende Mechanismen mit hohem Verwirrungspoten- 
zial aufgefallen. Wir stellen sie in diesem Kapitel kurz vor. 


Keiner versteht mich 
Interpretation von Sprache 


Wenn Worte reden könnten ... 
Hubert Vogler 


Unsere Sprache ist nicht eindeutig. Wir können im Gespräch auf 
eine Art «ja» sagen, die «nein» bedeutet. In einer wissenschaft- 
lichen Arbeit kann eine Aussage auch ohne Angabe von statisti- 
schen Wahrscheinlichkeiten so formuliert werden, dass sie sicher 
wie eine Gewissheit oder unsicher wie eine Spekulation klingt. 
Auf einer internationalen Tagung in Würzburg anlässlich des 
hundertsten Jahrestages der Entdeckung der Röntgenstrahlen ha- 
ben wir unter den anwesenden Wissenschaftlern eine Umfrage 
durchgeführt, deren Ergebnis zeigt, dass es erhebliche individuelle 
Unterschiede in der Auffassung von Formulierungen gibt. Jeder 


Teilnehmer erhielt zwanzig Kärtchen, auf denen jeweils verschie- 
dene Formulierungen der Aussage «Therapie A ist effektiver als 
Therapie B» in englischer Sprache standen.! 65 Wissenschaftler aus 
19 Ländern beteiligten sich an der Umfrage, darunter 25 mit Eng- 
lisch als Muttersprache. Die Aufgabe unserer Probanden bestand 
darin, anhand der verschiedenen Formulierungen zu beurteilen, 
wie sicher sich der jeweilige Autor war, dass Therapie A tatsächlich 


bess 


er ist als Therapie B. Wir baten sie, die Kärtchen entsprechend 


1 Die Sätze lauten: 


A. 
B. 


GC. 


D. 
E 


Dia in En 


g 


N. 


It is not inconceivable that therapy A is more effective than therapy B. 
The present results indicate that therapy A is more effective than the- 
rapy B. 

The present results prove that therapy A is more effective than the- 
rapy B. 

Possibly therapy A is more effective than therapy B. 


. It has become popular to assume that therapy A is more effective 


than therapy B. 
Therapy A could be more effective than therapy B. 


. Beyond any doubt therapy A is more effective than therapy B. 
. The present results support the hypothesis that therapy A is more ef- 


fective than therapy B. 
Probably therapy A is more effective than therapy B. 


. Others have suggested that therapy A could be more effective than 


therapy B. 


. Evidently therapy A is more effective than therapy B. 
. Itcan be speculated that therapy A could be more effective than the- 


rapy B. 

‚Therapy A was more effective than therapy B. 

We have the strong feeling that therapy A is more effective than the- 
rapy B. 


. Therapy A is more effective than therapy B. 


It has been proven that therapy A is more effective than therapy B. 


. In the present study therapy A was more effective than therapy B. 
. The present results show that therapy A is more effective than the- 


rapy B. 


. The present results show that therapy A is probably more effective 


than therapy B. 


. The present results are not in contradiction to the hypothesis that 


therapy A is more effective than therapy B. 
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dieser Gewissheit in eine Reihenfolge zu bringen, links beginnend 
mit der sichersten Aussage und rechts endend mit der vorsichtigsten 
Formulierung. Die 25 Wissenschaftler mit Englisch als Mutter- 
sprache kamen zu folgender gemittelter Reihenfolge: 


sicher spekulativ 
GOPCMRQBHKSINDTF]JALE 


Sie empfanden den Satz «Beyond any doubt therapy A is more ef- 
fective than therapy B» als den aussagekräftigsten und den Satz «It 
has become popular to assume that therapy A is more effective 
than therapy B» als den spekulativsten. Diese beiden etwas kon- 
struiert anmutenden Formulierungen stammen nicht von uns, son- 
dern aus Originalarbeiten zweier führender Koryphäen der Radio- 
onkologie. 

Die Teilnehmer, für die Englisch eine Fremdsprache war, liefer- 
ten eine leicht abweichende Reihenfolge: 


sicher spekulativ 
CGOPKRMQBHSNIFDTALE] 


Hier lag der Satz «The present results prove that therapy A is more 
effective than therapy B» an erster Stelle (bei den Muttersprachlern 
an vierter Stelle), während der Satz «Others have suggested that 
therapy A could be more effective than therapy B» den letzten 
Platz belegte statt wie bei den Kollegen Platz 17. Trotz einiger Un- 
terschiede waren die Beurteilungen beider Gruppen im Wesent- 
lichen sehr ähnlich. 

Die Auswertung zeigte, dass es selbst bei den Teilnehmern, für 
die Englisch die Muttersprache war, erhebliche Schwankungen in 
der Einschätzung der Aussagekraft verschiedener Formulierungen 
gab. Beispielsweise erhielt Satz K («Evidently ...») Einstufungen 
von Rang 2 bis Rang 17 oder der Satz N («We have the strong 
feeling that ...») von Rang 3 bis Rang 18. Selbst die einhelligsten 
Einschätzungen, etwa der Sätze G und ]J, variierten über sechs 
beziehungsweise sieben Ränge. Das war immerhin ein Drittel der 
gesamten Bandbreite. 


Die Zuordnungen der Wissenschaftler mit Englisch als Fremd- 
sprache waren deutlich stärker gestreut: Satz M («Therapy A was 
more effective than therapy B») und Satz T («The present results 
are not in contradiction to the hypothesis that therapy A is more ef- 
fective than therapy B») reichten sogar von Rang 1 bis Rang 20. 
Wie diese Formulierungen von einzelnen Gesprächspartnern auf- 
gefasst werden, ist also völlig unvorhersehbar. Einige von ihnen äu- 
ßerten beim Ausfüllen der Fragebögen die Ansicht, dass viele Sätze 
gleichwertig seien, ein Einwand, den die Vertreter der ersten 
Gruppe nicht vorbrachten. Die feinen Abstufungen des Englischen 
sind den meisten von uns, die es erst in der Schule gelernt haben, 
offenbar nicht geläufig. Es ist zu befürchten, dass unsere sprach- 
liche Unsicherheit Schwarzweißdenken begünstigt, da wir nicht in 
der Lage sind, die differenzierenden Grautöne zu erkennen bezie- 
hungsweise selber zu formulieren. 

Obwohl, wie schon erwähnt, die durchschnittliche Einschätzung 
der Aussagekraft eines Satzes relativ einheitlich war, können die 
zum Teil erheblichen Unterschiede in den individuellen Auffassun- 
gen zu enormer Verwirrung führen. Dies ist natürlich besonders 
dann der Fall, wenn ein Wissenschaftler beispielsweise den Satz T 
verwendet, dessen Spannweite in der Umfrage von Rang 1 bis 20 
reichte. Möchte man mit ihm zum Ausdruck bringen, dass eine 
Aussage spekulativ (Rang 20) ist, wird sie trotzdem von einigen als 
sehr sicher verstanden (Rang 1). Es ergeben sich aber auch andere 
Probleme. Nehmen wir an, ein Wissenschaftler wählt zur Beschrei- 
bung seiner etwas unsicheren Daten völlig adäquat einen Satz, dem 
ein mittlerer Rang zukommt, zum Beispiel H (im Schnitt Rang 10). 
Dann werden ihn diejenigen Zuhörer, für die H auf niedrigerem 
Rang steht, als zu bescheiden einschätzen. Diejenigen hingegen, die 
Satz H in ihrer persönlichen Bewertungsskala auf höherem Rang 
ansiedeln, könnten den Autor für einen Aufschneider halten, 
der seine begrenzten Ergebnisse überinterpretiert. Damit ist der 
Grundstein für eine fruchtlose Diskussion gelegt, sofern die diffe- 
rierenden Einschätzungen überhaupt geäußert werden und sich 
nicht jeder in vornehmer Zurückhaltung seinen Teil denkt. 

Besonders schwerwiegend wirken sich diese unterschiedlichen 
Auffassungen dann aus, wenn jemand über die Arbeit anderer Wis- 
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senschaftler schreibt, ohne deren Originaldaten zu präsentieren. 
Um nicht in den Verdacht reinen Nachplapperns zu geraten, wird 
er aus der Originalarbeit eben nicht wörtlich abschreiben, sondern 
im Allgemeinen seine eigenen Formulierungen benutzen, was zur 
Folge haben kann, dass der Leser dieser Sekundärquelle die Validi- 
tät einer Aussage völlig anders beurteilt als deren Urheber. Wir ver- 
muten überdies, dass die Sprachverwirrung in der Realität deutlich 
größer ist, als unsere Umfrage zeigt, weil wir Äußerungen meist 
nicht so emotionsfrei gegenüberstehen können wie den hier vorge- 
führten nüchternen Sätzen. Wer zum Beispiel jahrelang an der Ver- 
besserung von Therapie A gearbeitet hat, interpretiert die Formu- 
lierungen vielleicht ganz anders. 

Häufig machen sich Autoren die Aussagen von Publikationen 
zunutze, ohne die Originalarbeit überhaupt einzusehen. Stattdes- 
sen stützen sie sich auf die Zusammenfassung der Arbeit, die so ge- 
nannten abstracts, oder gar nur auf Zitate anderer Wissenschaftler. 
Aber ohne die Originaldaten ist eine Einschätzung, wie sicher die 
Ergebnisse sind, unmöglich. Das Endresultat eines solchen Vorge- 
hens hat aufgrund linguistischer Fehlerfortpflanzung (siehe folgen- 
den Abschnitt) manchmal nicht mehr viel mit den ursprünglichen 
Ergebnissen gemeinsam. Oft werden die benötigten Zitate für eine 
Publikation auch einfach bei Kollegen erfragt. Während wir dieses 
Buch schrieben, stand eines Tages unser Zimmernachbar in der 
Tür und erkundigte sich nach einem Literaturbeleg für eine be- 
stimmte Aussage. Als wir ihm eine Kopie der Arbeit aushändigen 
wollten, lehnte er dankend ab und notierte lediglich die Quellen- 
angabe. Man beachte dabei auch, dass der Kollege nicht eine 
«Arbeit zu dem Thema ...», sondern ganz selektiv einen «Beleg 
für ...» suchte. Dasselbe wiederholte sich mit einem anderen Zitat 
ein paar Stunden später.? 

Die meisten Wissenschaftler kommen aufgrund der unüber- 
schaubaren Publikationsflut kaum noch dazu, die Fachveröffent- 
lichungen gründlich durchzuarbeiten. Das Lesen besteht mittler- 


2 Sie protestieren, weil dies eine zufällige Häufung sein kann und wir 
trotzdem damit argumentieren ? - Sie haben völlig Recht! Der Vorgang hat 
sich in der folgenden Zeit auch erst ein halbes Jahr später wiederholt. 
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weile weitgehend darin, die Überschriften im Inhaltsverzeichnis der 
für das eigene Fachgebiet wichtigsten Zeitschriften zu überfliegen 
und aus jeder Ausgabe ein paar Artikel herauszupicken, deren Zu- 
sammenfassung man Beachtung schenkt. Nur Aufsätze aus dem ei- 
genen, allerengsten Arbeitsfeld liest der Forscher vollständig durch. 
Trotzdem verbringt er einen beachtlichen Teil seiner Zeit mit dem 
Kopieren beziehungsweise Downloaden und Ausdrucken von wis- 
senschaftlichen Veröffentlichungen, «die dann», wie Siegfried Bär 
schreibt, «oft ungelesen, gestapelt oder in Ordnern abgeheftet sei- 
nen Schreibtisch zieren. In seiner Zeitnot gilt dem Forscher das Ko- 
pieren als geistige Besitzergreifung. Es hat den Rang einer rituellen 
Handlung, die den umständlichen Lesevorgang ersetzt. Kopieren 
beruhigt den Forscher, schenkt ihm inneren Frieden und das Ge- 
fühl, keine wichtige Information verpasst zu haben.» 

Dies nutzen einige findige Fachvertreter aus, indem sie be- 
stimmte Aussagen, die die tatsächlichen Untersuchungsergebnisse 
kaum oder gar nicht belegen, in die Zusammenfassung oder den 
Titel ihrer eigenen Beiträge einschmuggeln. Ein krasses Beispiel für 
dieses Vorgehen stellt die Arbeit eines amerikanischen Kollegen 
dar, der mittlerweile Chef in einem der größten Krebszentren in 
den USA ist. Im Diskussionsteil seines Artikels in der Zeitschrift 
Cancer (Cox et al. 1992) schreibt er sinngemäß übersetzt’: « Die 
vorliegenden Daten liefern keinen Hinweis auf beschleunigtes 
Wachstum, aber sie sind mit der Hypothese eines beschleunigten 
Wachstums vereinbar.» 

In der Zusammenfassung steht: « Die vorliegenden Daten stützen 
die Hypothese eines möglicherweise beschleunigten Wachstums.» 

Und der Titel lautet schließlich: «Neue Hinweise auf beschleu- 
nigtes Wachstum». 


3 Die Originalformulierungen lauten: In der Diskussion: «These data per 
se do not show accelerated proliferation, but they agree with the hypothe- 
sis that accelerated proliferation occurs and is important in determining 
outcome.» In der Zusammenfassung: «These data support the hypothesis 
that proliferation (possibly accelerated) of tumor clonogens during treat- 
ment influences the outcome.» Und im Titel der Arbeit: «New evidence 
for accelerated proliferation ». 
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So schiebt der Autor seine Aussage sogar innerhalb ein und 
derselben Arbeit über zahlreiche Ränge hinweg. Sie endet in einer 
irreführenden unbewiesenen Behauptung, die natürlich an der 
meistgelesenen Stelle des Artikels steht, nämlich im Titel. Der Dis- 
kussionsteil, der die Daten noch adäquat wiedergibt, wird am sel- 
tensten gelesen. 


Ye 
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Abbildung 45: Babylonische Sprachverwirrung in der Wissenschaft 


Wir haben nicht überprüft, ob es möglicherweise eine eindeutige 
sprachwissenschaftlich begründete Reihenfolge für unsere Test- 
sätze gibt. Aber selbst wenn es eine gäbe, wäre damit das hier um- 
rissene Kommunikationschaos nicht entwirrt, denn das Ergebnis 
zeigt durch seine Heterogenität, dass kaum einer der befragten 
Wissenschaftler diese linguistischen Spielregeln beherrscht. Die 
oben dargestellten Einstufungen können vielleicht als grobe Orien- 
tierungshilfe nützlich sein. Der Vergleich mit der eigenen Reihen- 
folge kann uns vor Augen führen, bei welchen Aussagen wir am 
deutlichsten von der mittleren Interpretation abweichen. Bei gro- 
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ßen Abweichungen ist es unter Umständen ratsam, eine der «getes- 
teten» Formulierungen vorzuziehen. Und vermeiden Sie Satz T, es 
sei denn, Sie wollen Verwirrung stiften. 

Sprachverwirrungen entstehen sehr viel seltener, wenn man alle 
wichtigen Originalarbeiten des eigenen Fachgebiets selbst liest und 
sich ein eigenes Bild von der Aussagekraft der Daten macht, ohne 
sich dabei auf das Sprachgefühl und die Einschätzung der Autoren 
von Übersichtsartikeln zu verlassen. Das kostet auf den ersten 
Blick natürlich mehr Zeit, die vom eigenen Experimentieren oder 
Schreiben abgeht, und die möchte man ja gerade sparen, da häufi- 
ges Publizieren bei der gegenwärtigen Wissenschaftspolitik für das 
Überleben eines Forschers notwendig ist. Wenn man jedoch auf- 
grund nachlässiger Literaturrecherchen jahrelang in eine Sackgasse 
hineingeforscht hat, ist sicherlich nichts gespart worden, weder 
Zeit noch Geld noch Ressourcen. Allerdings hat man seinen Le- 
bensunterhalt verdient. Und da erscheint den meisten das Hemd 
näher als die Hose. 


Vom Original zum Lehrsatz: 
das Stille-Post-Prinzip 
Fehlerhafte Informationsübertragung 


Die Wissenschaft, sie ist und bleibt, 
was einer ab vom andern schreibt. 
Eugen Roth 


Beim Kinderspiel «Stille Post» flüstert man seinem Nachbarn et- 
was ins Ohr. Der gibt es flüsternd dem Nächsten weiter und so 
fort, und der Letzte hat die erheiternde Aufgabe, die bei ihm einge- 
troffene Botschaft laut zu verkünden. Keiner erwartet, dass sich 
am Ende noch etwas Sinnvolles ergibt. Im Gegenteil, man kann 
sich fast darauf verlassen, dass beim Letzten in der Reihe irgendein 
mehr oder weniger lustiger Unsinn ankommt. In der Wissenschaft 
gibt es das auch, nur dass niemand damit rechnet, es keiner merkt 
und es dabei eigentlich auch nichts zu lachen gibt. 


Als Übung im Rahmen unserer Vorlesung erhielten 23 Teilneh- 
mer jeweils eine andere aktuelle Veröffentlichung aus einer inter- 
nationalen Fachzeitschrift mit der Bitte, den Artikel in acht Zeilen 
zusammenzufassen. Diese Kurzfassung wurde anschließend von ei- 
nem anderen Teilnehmer, der die Originalarbeit nicht kannte, um- 
formuliert. Der dritte Teilnehmer in dieser Reihe sollte die letzte 
Version des Textes wiederum kürzen und zum Umformulieren wei- 
terreichen. Nach insgesamt sechs Bearbeitungsschritten, bei denen 
die Teilnehmer immer nur die jeweils neueste Version einsehen 
konnten, wurde der Prozess abgebrochen. 13 der 23 Schlusstexte, 
etwas mehr als die Hälfte, gaben den wesentlichen Inhalt des Ori- 
ginals einigermaßen korrekt wieder, 6 enthielten nur noch unver- 
ständlichen Unsinn, und 3 Versionen verkehrten die ursprüngliche 
Aussage ins Gegenteil (!). Einer der Schlusstexte konnte nicht ge- 
wertet werden, weil bereits zu Beginn ein Missverständnis wegen 
undeutlicher Handschrift aufgetreten war. 

Am erstaunlichsten ist die Umwandlung von Aussagen in ihr 
Gegenteil. Wie es dazu kommt, erläutern wir am besten an einem 
Beispiel. Eine der Arbeiten berichtete über die Wirksamkeit eines 
Medikaments, durch das das Fortschreiten einer Erkrankung ver- 
langsamt werden konnte. In der ersten Zusammenfassung stand, 
die gemessenen Parameter veränderten sich nach Gabe des Präpa- 
rats weniger als bei Placebo®, doch fehlte der Hinweis, dass es sich 
um eine Verlangsamung des Fortschreitens der Erkrankung han- 
delte. Dadurch wurde der Keim für das prompt folgende Missver- 
ständnis des zweiten Bearbeiters gelegt. Dieser ging davon aus, 
dass die Veränderung der Parameter etwas Positives sei. Da sich die 
Behandlung mit dem Medikament geringer auf sie auswirkte als 
die Einnahme eines Placebos, kam er zu dem Schluss, die Arznei sei 
unwirksam. 


4 Ein Placebo ist ein Scheinmedikament, zum Beispiel eine Pille, die nur 
aus Zucker besteht. Placebos können eine deutliche Wirkung haben, wenn 
man nur daran glaubt. Da natürlich auch ein tatsächliches Medikament ei- 
nen solchen Placeboeffekt hat, ist es bei klinischen Studien notwendig, den 
Patienten, die das zu untersuchende Medikament nicht bekommen, ein 
Scheinmedikament zu verabreichen. 


Selbst Quellenhinweise werden nicht fehlerfrei übermittelt, ob- 
wohl dies doch nur eine reine Abschreibarbeit ist. Nach Auskunft 
der Ärztlichen Zentralbibliothek des Universitäts-Klinikums in 
Hamburg-Eppendorf gibt es im internationalen Schrifttum eine 
Quote von mehr als 10 Prozent falscher Literaturangaben. Diese 
haben aber auch ihre Vorzüge. Anhand von Druckfehlern in den 
Zitaten haben Simkin und Rowchoydhury (2003) untersucht, wie 
häufig es vorkommt, dass Wissenschaftler eine Arbeit zitieren, 
ohne sie gelesen zu haben. Es zeigte sich, dass vier von fünf zitier- 
ten Arbeiten den Autoren nicht vorgelegen hatten und daher von 
ihnen auch nicht gelesen werden konnten. Ein nach heutigen 
«Qualitätskriterien» erfolgreicher Wissenschaftler hat systembe- 
dingt auch nicht viel Zeit zum Lesen (siehe impact factor im Ab- 
schnitt «Viel Blech ist noch lange kein Auto»). 

Bei der Übertragung inhaltlicher Aussagen ist die Fehlerquote 
natürlich deutlich höher, zumal hier subjektive Faktoren wie selek- 
tive Wahrnehmung hinzukommen. Selbst ein falsch gesetztes 
Komma kann schwerwiegende Konsequenzen haben, wie zum Bei- 
spiel der für ganze Kindergenerationen gravierende Irrtum vom Ei- 
sen im Spinat zeigt. Dass er besonders viel Eisen enthält und des- 
halb gesund ist, gilt schon fast als Volksweisheit. Damit Kinder ge- 
sund aufwachsen, müssen sie Spinat essen. Die meisten mögen aber 
keinen. Deshalb wurde, um ihnen die Sache schmackhaft zu ma- 
chen, der Comic-Held Popeye erfunden, der übermenschliche 
Kräfte aus Dosenspinat bezieht. Der tätowierte und unentwegt 
rauchende Seemann war in seiner Vorbildrolle sehr erfolgreich. 
Noch heute erinnert eine Popeye-Statue in Crystal City, Texas, dar- 
an, dass es ihm gelang, den Spinatkonsum in den USA um 33 Pro- 
zent anzuheben. Gesünder geworden sind dadurch aber allenfalls 
die Gemüsehändler, denn die ganze Geschichte beruht auf einem 
Irrtum. 

Bereits Ende des 19. Jahrhunderts wurde «entdeckt», dass Spi- 
nat überdurchschnittlich viel von dem für die Blutbildung lebens- 
notwendigen Eisen enthält. Auf dem Speisezettel war er damit dem 
Fleisch ebenbürtig, was besonders in den Ernährungsengpässen 
während des Zweiten Weltkriegs nützlich schien. Allerdings zeigte 
sich alsbald, dass der tatsächliche Eisengehalt von Spinat zehnmal 
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geringer ist als damals angenommen. Zwei diese Überschätzung er- 
klärende Mythen (von keinem ist uns eine zuverlässige Quelle be- 
kannt) haben uns erreicht. Mythos 1: Die Sekretärin des Forschers 
muss für einen Tippfehler herhalten. Sie hat das Dezimalkomma 
eine Stelle zu weit nach rechts gesetzt. Mythos 2: Es wurde schlicht 
übersehen, dass in der ursprünglichen Arbeit der Eisengehalt der 
Trockensubstanz des Spinats bestimmt wurde. Da Spinat zu etwa 
90 Prozent aus Wasser besteht, wäre damit ebenfalls der fragliche 
Faktor Zehn erklärt. Spinat enthält nicht mehr Eisen als Kohl oder 
Broccoli. Ganze Generationen von Kindern mussten wegen dieses 
Irrtums Spinat essen, und viele müssen es noch heute, obwohl er 
bereits in den 1930er Jahren richtig gestellt worden ist’. Ob Popeye 
eine ähnlich durchschlagende Wirkung auf das Pfeiferauchen und 
das Tragen von Tätowierungen hatte, ist uns nicht bekannt. 
Detaillierte und vollständige Dokumentationen von Experimen- 
ten oder klinischen Studien sind meist nur schwer lesbar. Auf dem 
Weg zum eingängigen Text eines Lehrbuches oder Übersichtsarti- 
kels, der sich auf das Wesentliche beschränkt, muss von Einzelhei- 
ten abstrahiert werden. Dies ist zwangsläufig mit dem Verlust von 
Informationen verbunden. Offenbar gibt es auch in der Kommuni- 
kation eine Art Unschärferelation: Übersichtlichkeit und Genauig- 
keit schließen einander aus.° Durch eine Vielzahl kleiner Änderun- 
gen entfernt sich der Text immer weiter von seiner Grundlage, den 
erhobenen Originaldaten. Zunächst gehen vielleicht einige Anga- 
ben über Material und Methoden verloren. Später wird leicht aus 
einer spekulativen eine sichere Aussage. Dies kann schrittweise zu 
allgemeineren Schlussfolgerungen führen, als die Befunde es bele- 
gen. Häufig gehen auch die Originaldaten verloren, als Erstes zum 
Beispiel die Anzahl der untersuchten Patienten, eine Information, 


5 Diese Informationen stammen aus dem Artikel von T. J. Hamblin 
(1981). Der Autor bespricht dort verschiedene Beispiele « resistenter » Irr- 
tümer. Für das Spinatproblem gibt er keine Quelle an. Bitte schreiben Sie 
uns, wenn Sie uns weiterhelfen können! 

6 These: Das Produkt aus Exaktheit und Verständlichkeit einer Arbeit er- 
gibt eine Konstante. Falls Sie das vorliegende Buch für gut verständlich hal- 
ten, so liegt das... na ja, lassen wir das lieber! 
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die für die Abschätzung des Fehlers zweiter Art essenziell ist. Übrig 
bleiben häufig nur Prozentzahlen oder relative Änderungen (ver- 
gleiche den Abschnitt «... es wirkt», Seite 165 f.). Dieser Prozess 
führt auf Kosten des wissenschaftlichen Inhalts sukzessive zu einer 
Verbesserung der Lesbarkeit des Textes. Besonders schwierig wird 
das Recherchieren der Datengrundlage, wenn im Verlauf dieser 
Rezeptionsgeschichte die Originalarbeiten, auf denen das Gedan- 
kengebäude beruht, nicht mehr zitiert werden. Dies ist bei Lehrbü- 
chern häufig der Fall. In einer solchen Kette von Zitierungen ohne 
Rückgriff auf den ursprünglichen Text sind die einzelnen Zwi- 
schenschritte häufig vertretbar oder zumindest verständlich. Bei 
keinem von ihnen muss ein grobes Vergehen vorliegen. Dennoch 
wird zwangsläufig, wenn die Kette nur lang genug ist, am Ende 
grober Unfug stehen. 

Unser Fachwissen beziehen wir im Allgemeinen aus Übersichts- 
artikeln oder Lehrbüchern. Auf dem langen Weg dorthin wird eine 
Originalarbeit von verschiedenen Autoren mehrfach umgeschrie- 
ben. Für die dabei möglichen Interpretations- und Übertragungs- 
fehler haben wir Beispiele geliefert. Missverständnisse und Falsch- 
meldungen, die den Sprung in Lehrbücher geschafft haben, sind 
nur sehr schwer wieder auszuräumen. Irrtümer dieser Art lassen 
sich wahrscheinlich nicht völlig vermeiden, aber doch zumindest 
reduzieren, unter anderem dadurch, dass man auf Sekundärzitate 
verzichtet. Allerdings ist dieser fromme Wunsch nicht so leicht zu 
realisieren. Auch dieses Buch enthält eine ganze Reihe von Sekun- 
därzitaten. 

Eigene Formulierungen beim vermeintlich sinngemäßen Zitie- 
ren können sinnentstellend sein. Besser ist es, die Aussagen der 
Originalarbeit möglichst wörtlich zu übernehmen - im Klartext: 
einfach abzuschreiben. Dies ist kein Plagiat, wenn die Arbeit or- 
dentlich zitiert wird. In der wissenschaftlichen Literatur geht es in 
erster Linie um den — möglichst kristallklar dargestellten - Inhalt 
und nicht um besonders gelungene Formulierungen. Das Ab- 
schreiben hat natürlich seine Grenzen bei fremdsprachigen Ar- 
beiten. Bei einer Übersetzung bleibt dem Übersetzer gar nichts an- 
deres übrig, als seine eigenen Formulierungen zu wählen. Dabei 
auftretende Verdreher kann der Autor des Originals nur bemer- 
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ken, wenn er selber zweisprachig ist oder sein Werk eines Tages 
von jemandem in seine Sprache zurückübersetzt wird, der von 
der Originalarbeit nichts weiß. Außerhalb der exakten Wissen- 
schaften kann dies durchaus kreativ sein, wie das folgende Bei- 
spiel zeigt. 

Im Jahre 1902 ging «Wanderers Nachtlied» von Johann Wolf- 
gang von Goethe auf Wanderschaft: 


Über allen Gipfeln 

Ist Ruh’, 

In allen Wipfeln 

Spürest du 

Kaum einen Hauch; 

Die Vögelein schweigen im Walde. 
Warte nur, balde 

Ruhest du auch. 


Es wanderte ins Japanische, kehrte 1911 nach Europa zurück, ver- 
weilte kurz im Französischen und wurde von dort aus ins Deutsche 
zurückübersetzt - in der Annahme, es sei ein japanisches Gedicht. 
Reisen verändert, sehen Sie selbst’: 


Stille ist im Pavillon aus Jade 

Krähen fliegen stumm 

Zu beschneiten Kirschbäumen im Mondlicht. 
Ich sitze 

Und weine. 


7 Die Fundstelle für das Gedicht mit den verschiedenen Fassungen konn- 
ten wir mit Hilfe der Direktorin des Deutschen Instituts für Japanstudien 
Frau Prof. Dr. Irmela Hijiya-Kirschnereit ausfindig machen: D. Matthen- 
Gohdes; Hg.: Goethe ist gut. Weinheim: Beltz & Gelberg 1982, zitiert in 
David Crystal: Die Cambridge Enzyklopädie der Sprache. Darmstadt: 
Wiss. Buchgesellschaft 1993, Seite 346. Wir danken auch Herrn Dr. Mat- 
thias Koch vom Deutschen Institut für Japanstudien und Frau Christel 
Mahnke vom Goethe-Institut in Tokyo. 
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Wir, die Autoren, weinen noch nicht, haben beim Abfassen dieses 
Kapitels aber gelernt, dass Sie unser Buch vielleicht gar nicht so 
verstehen werden, wie wir es geschrieben haben. Aber wahrschein- 
lich haben wir es auch nicht so geschrieben, wie wir es meinen. So 
könnten Sie uns zufällig doch verstehen. 


Computermärchen 
Computersimulationen und Rechenmodelle 


Veröffentlichungen über mathematische Modelle und Computersi- 
mulationen nehmen in den letzten Jahren zu. Der Einfluss dieser 
Arbeiten auf die Entwicklung des jeweiligen Fachgebietes ist nicht 
zu unterschätzen. Rechenmodelle sind immer auch Denkmodelle. 
Sie können weite Bereiche der wissenschaftlichen Diskussion be- 
stimmen und damit die Gedanken ganzer Generationen von Wis- 
senschaftlern prägen. Ein aktuelles Beispiel sind die Klimamodelle. 

Der große Einfluss mathematischer Modelle ist nicht unbedingt 
ein Zeichen für ihre Qualität. Eine Simulationsrechnung mit Dut- 
zenden von Variablen, die noch vor einigen Jahren eine Großre- 
chenanlage mehrere Tage lang beschäftigt hätte, lässt sich heute 
mit relativ kleinen Computern innerhalb weniger Minuten durch- 
führen, was zu der wachsenden Zahl wissenschaftlicher Veröffent- 
lichungen führt, die Simulationen und Modelle zum Inhalt haben. 
Allerdings sind bei weitem nicht alle von ihnen sinnvoll, selbst 
wenn sie in der Lage sind, die Messdaten sehr gut zu beschreiben. 
Die folgende Geschichte illustriert das Problem. 


Das Genuesische Zepter 
Naturkonstanten auf einem prähistorischen Fund 


Die Toren besuchen in fremden Ländern die Museen. 
Die Weisen aber gehen in die Tavernen. 
Erich Kästner 


In einer jüngst erschienenen Arbeit berichtet Doktor Nebbud 
Namreh-Snah vom Prehisteric Research Institute in Grubmah Inu, 
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Fakistan, über den chronologischen Ablauf der Geschichte eines 
verschwundenen prähistorischen Fundes von unschätzbarer Be- 
deutung. 

Im Jahre 1939 wird in der Nähe von Murci/Grosseto in einer 
Grabstätte ein keulenartiger Gegenstand entdeckt, dessen Alter 
Experten auf fünf- bis achttausend Jahre schätzen. Da die Wissen- 
schaftler vermuten, dass das Fundstück ursprünglich religiösen 
Zwecken diente, bringen sie es zur Verwahrung ins Pfarramt von 
Scansano. Zehn Jahre später geht es, im Zuge der Haushaltsauflö- 
sung nach dem Tod des Pfarrers von Scansano, in den Besitz des 
Prähistorischen Museums zu Genua über. Dort landet es, sauber 
beschriftet, in einem Regal und bleibt zunächst unbeachtet. 

Der Physiker und Hobbyarchäologe Goffredo Winkelmann, der 
seine Urlaube damit verbringt, die Archive und Abstellräume von 
Museen in Norditalien zu durchkämmen, erhält im Jahre 1953 die 
Genehmigung, die Magazine des Museums in Genua zu erkunden. 
So wird der Gegenstand an einem Sonntagnachmittag zum zweiten 
Mal gefunden. Als Physiker fällt Winkelmann sofort auf, dass 
Material und Bearbeitung sehr untypisch für ein Objekt der ver- 
muteten Herkunft sind. Im folgenden Jahr kehrt er gut vorbereitet 
nach Genua zurück und führt zahlreiche Untersuchungen durch, 
deren Ergebnisse er 1957 in einer leider unbedeutenden Fachzeit- 
schrift veröffentlicht. In diesem Artikel gibt er dem Fundstück den 
Namen «Genuesisches Zepter », der bis heute verwendet wird. Fer- 
ner berichtet er dort von fünf auf dem Zepter kodierten Zahlen: 
294, 11, 3, 70 und 20. 

Fortan ist das «Genuesische Zepter» ein fester Bestandteil der 
Dauerausstellung im Museum. Sechs Jahre später sehen sich zwei 
amerikanische Wissenschaftler, ein Chemiker und ein Astronom, 
das Exponat an. Sie erhalten die Genehmigung, eine kleine Mate- 
rialprobe mitzunehmen. Zwei Wochen nach Abreise der Wissen- 
schaftler trifft ein Angebot der NASA ein, die das Zepter kaufen 
will. Da das Museum dringend ein neues Dach benötigt und das öf- 
fentliche Interesse am Zepter in letzter Zeit deutlich nachgelassen 
hat, wechselt das prähistorische Stück 1963 für 18350 Dollar den 
Besitzer. Seitdem ist es der Öffentlichkeit nicht mehr zugänglich. 

Im selben Jahr stößt der französische Dechiffrierungsexperte 
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Jean-Jacques Dupont durch Zufall auf den Artikel von Goffredo 
Winkelmann. Von den fünf auf dem Zepter kodierten Zahlen fas- 
ziniert, macht er sich an die Arbeit, und ein Jahr später publiziert er 
im Bulletin Prehisterique Bernaise eine Liste von Naturkonstanten, 
die mit hoher Präzision auf dem Zepter verschlüsselt wiedergege- 
ben sind (vergleiche Tabelle 29). 

Zu ihnen gehört beispielsweise die mit beeindruckender Genau- 
igkeit kodierte Zahl rn. Das Produkt der zweiten und der fünften 
Zahl, dividiert durch die vierte (Bx E/D= 11 x 20/70), stimmt mit 
einer Präzision von 0,04 Prozent mit n überein. Dupont wird je- 
doch vorgeworfen, nur Fotos und Zeichnungen des Zepters unter- 
sucht zu haben und mit seiner Interpretation zu übertreiben. Der 
geniale Dechiffrierungsexperte gerät in den Verdacht, ein Scharla- 
tan zu sein. 

Als Dupont die NASA bittet, das Zepter vorzuführen, damit die 
Sachlage geklärt werden könne, bestätigt sie zwar den Kauf eines 
«prähistorischen Gegenstandes», behauptet jedoch, dieser sei nie- 
mals vom Prähistorischen Museum zu Genua geliefert worden. 
Der Verbleib des Fundstücks bleibt lange Zeit ungeklärt. 

Dreißig Jahre später wird das Zepter, wiederum an einem Sonn- 
tagnachmittag, auf einem Flohmarkt in Hamburg wiederentdeckt. 
Zahlreiche Forschergruppen stürzen sich auf diesen unerwarteten 
Fund. Die Arbeitsgruppe um den Modelexperten Kahlnager-Feld 
überprüft das Dupont-Modell, also die Formel 


Y=A?xBPxC°xDixE: 


Unter Beschränkung der Exponenten auf die ganzzahligen Werte 
-5, 4, -3, -2, -1, 0, 1, 2, 3, 4, 5 führt sie dazu eine Computersi- 
mulation durch. Nach Einsetzen der Winkelmann’schen Zahlen 
konnte Duponts Tabelle aus dem Jahre 1964 völlig bestätigt wer- 
den. 

Es gibt noch eine weitere wissenschaftliche Sensation. Mit extrem 
genauen, hochmodernen laseroptischen Methoden vermisst der Ita- 
liener Nero Maghi das Zepter erneut und kommt zu dem Ergebnis, 
dass drei der Winkelmann’schen Zahlen geringer, aber offenbar be- 
deutsamer Korrekturen bedürfen. Nach diesen neuesten Erkennt- 
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Tabelle 29: Universelle physikalische Konstanten, die auf dem 
Genuesischen Zepter kodiert sind. Es bedeuten: A = 294; B= 11; 
C = 3; D = 70; E = 20 (nach Dupont 1964). 


Konstante Formel Präzision 
Zahl n = 3,141593 BE/D 0,04% 
Zahl e = 2,718282 (BC/E)? 0,2% 
Lichtgeschwin- 

digkeit = 2,997925 x 10’ ms ACD’° 0,92 % 
Mol-Volumen = 0,0224136 m? Mol" (C/E)? 0,4% 
Atomare Mas- 

seneinheit = 931,5 MeV ABE/D 0,8% 
Ruheenergie des 

Elektrons = 0,511 MeV (CD/A)? 0,16 % 
Compton-Wel- 

lenlänge des 

Elektrons = 2,4263 x 10" m 1/(CD)° 0,92 % 
Protonenmasse = 1,67261 x 10° kg 1/(ABD)’ 0,6% 
Bohr’scher 

Radius = 5,29166 x 10"! m C?’/(ADE)? 0,4% 
Masseverhält- 

nis Proton / 

Elektron = 1836,1 (C/E)’D* 0,7% 
Gravitations- 

konstante = 6,673x 10 ''N m?’kg” 1/(C?D°) 0,93% 
Harvey-Zahl = 6,02217 x 10° Mol" 1/(A’B’D’) 0,7% 
Elementar- u 19 Zee = 0 
edle = 1,602192 x 10” Cb (ABCD)’E 0,4% 
Boltzmann-  _ 1,38062 x 103 JK“' BC _ 0,9% 
Konstante A’E’D’ 


nissen sind folgende fünf Zahlen auf dem Zepter kodiert: die Länge 
(A=294,7741 Millimeter), die Anzahl der Zinken (B= 11), drei Lö- 
cher hat das Zepter (C = 3), die breiteste Breite (D = 70,0826 Mil- 
limeter) und die schmalste Breite (E = 20,0156 Millimeter). 

Uns erscheinen die maghischen Zahlen sehr krumm. Das mag 
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daran liegen, dass die Schöpfer dieses rätselhaften Gegenstandes ein 
anderes Maßsystem benutzt haben als wir (man bedenke zum Bei- 
spiel, dass 1 Yard 0,91440 Metern entspricht). Auf jeden Fall waren 
sie in Mathematik sehr bewandert, und damit kommen wir zu der 
zweiten Sensation. Die neuen laseroptisch gemessenen Werte und 
die bewährte Dupont’sche Formel geben die vom jeweiligen Maß- 
system unabhängigen Naturkonstanten «rt» und «e» miteiner Prä- 
zision von 0,00027 Prozent (rn) und 0,00088 Prozent (e) wieder. 

Wie kann ein derart präzise gefertigtes Instrument Jahrtausende 
überdauern, ohne diese Genauigkeit einzubüßen? Welches Mate- 
rial ist in der Lage, den Umwelteinflüssen derart zu trotzen? Um 
diesen Fragen nachzugehen, werden chemische und massenspek- 
troskopische Analysen durchgeführt. Die High-Tech-Untersuchun- 
gen offenbaren, dass das Material des Gegenstandes eine statistisch 
signifikant seltene Legierung ist (p < 0,05; weniger als jedes zwan- 
zigste Zepter besteht daraus). Diese Messergebnisse führen schließ- 
lich 1996, im Jahr der Entdeckung von Leben auf dem Mars 
(Grady et al. 1996; McKay et al. 1996), zu dem Schluss, dass das 
Fundstück extraterrestrischen Ursprungs ist. 

Alle bislang vorliegenden Erkenntnisse über das Objekt sind mit 
dieser sensationellen Hypothese vereinbar. Nachträglich wird da- 
durch auch verständlich, weshalb sich die NASA für diesen Vorfall 
interessierte. 

Wiederum ist es einem Nichtarchäologen, nämlich dem Biophy- 
siker Orst Jeune, vorbehalten, weitere Geheimnisse aufzudecken. 
Jeune gelingt mit einer explorativen Computersimulation (induk- 
tive Monte-Carlo-Determination) der Nachweis, dass das Zepter 
Informationen über die Zukunft enthält (Tabelle 30). Die vor Jahr- 
tausenden niedergeschriebenen Zahlen sagen seiner Ansicht nach 
einige hochaktuelle Ereignisse wie die Entdeckung von Leben auf 
dem Mars mit erstaunlicher Genauigkeit vorher. Hinzu kommen 
die Maße Epoche machender Bauwerke, Einwohnerzahlen in zu- 
künftigen Jahren und sogar Telefonnummern, aufgezeichnet lange 
vor Erfindung des Telefons. 

Nun ist nicht mehr daran zu zweifeln, dass Dupont bereits vor 
Jahrzehnten eine unfassbare Weitsicht bewiesen hat. Heute erken- 
nen wir, dass er vielleicht gerade deswegen der Scharlatanerie be- 


zichtigt wurde. Unterstützt von modernster Computertechnologie, 
zeigen Wissenschaftler mit demselben bewährten Dupont’schen 
Modell, dass die Naturkonstanten auch in den Pyramiden von Gi- 
zeh, den Kanälen auf dem Mars, in den immer wieder auftretenden 
geheimnisvollen Kornkreisen und in der Lochgröße von Schweizer 
Käse universell kodiert sind. Die Schöpfer des Zepters scheinen all- 
gegenwärtig zu sein'. 

Dies ist die faszinierende Geschichte eines ebenso faszinieren- 
den prähistorischen Gegenstandes. Fast beispielhaft zeigt sie das 
manchmal dramatische Auf und Ab im Leben enthusiastischer For- 
scher parallel zum Auf und Ab der Bedeutung, die einem sensatio- 
nellen Fund im Laufe der Zeit beigemessen wird. Obwohl nun alle 
Beweise erbracht und die Herkunft und Bedeutung des Zepters ge- 
klärt sind, möchten wir noch eine Anekdote hinzufügen, ohne die 
diese Geschichte unvollständig wäre. 

Im Jahre 1999 weisen die Wissenschaftler und offenbar unbe- 
lehrbaren Dissidenten Beque-Bolt und Du Pain darauf hin, dass 
sich mit fünf Zahlen und elf Exponenten 11° = 161051 Zahlen be- 
rechnen lassen und dass vierzehn davon den Konstanten rein zu- 
fällig sehr nahe kommen. Man müsse lediglich sämtliche Kombi- 
nationen von einem Computer durchspielen lassen, mit möglichst 
vielen bekannten Konstanten vergleichen und nachträglich dieje- 
nigen publizieren, die man mit ausreichend beeindruckender Ge- 
nauigkeit mit den gegebenen Winkelmann’schen Zahlen und der 
Dupont-Formel habe berechnen können. Dieser destruktive Ein- 
wand wird international totgeschwiegen. 


1 Wir stehen im Zusammenhang mit dem « Genuesischen Zepter » vor ei- 
nem Rätsel ganz anderer Art. Einer von uns (HHD) behauptet, dass er die 
Story und die Formel erfunden und in unserer Vorlesung am 6. Dezember 
1995 vorgetragen hat. Ein halbes Jahr später fiel uns ein Band aus der Ro- 
wohlt-Sachbuchreihe science in die Hände: Mein paranormales Fahrrad, 
herausgegeben von Gero von Randow, veröffentlicht im Oktober 1993. Es 
enthält einen Artikel von Cornelis de Jager mit dem Titel «Was ist Rado- 
sophie?». Darin wird fast dieselbe Formel dargestellt und daraus eine Ge- 
schichte ums Fahrrad gesponnen wie bei uns um einen Nudellöffel. Das 
«Genuesische Zepter » ist also ganz dreideutig ein, wenn auch unbewuss- 
tes, Plagiat, eine zufällige Koinzidenz oder einfach Gedankenübertragung. 


207 


Tabelle 30: Mit Hilfe des Genuesischen Zepters vorhergesagte Ereignisse 
und kodierte Maße. Die Berechnungen wurden mit dem Dupont-Modell 
und den fünf maghischen Zahlen durchgeführt (nach Orst Jeune 1996). 


Ereignis / 


Sachverhalt Zahl Formel Präzision 


Keilerei bei 

Issos 333 A’xB’xC”’xD'xE’ 0,028 % 
E. T. A. Hoff- 

mann, Ge- 

burtsjahr 1776 A’xB"’xC’xD’xE* 0,004 % 


Johannes Paul 
II., Geburtsjahr 1920 A’xB’xC’xD*xE? 0,009 % 


Beginn des 

Zweiten Welt- 1939 A’xB’xC”’xD”xE! 0,002 % 
kriegs 

Ende des Zwei- 

ten Weltkriegs 1945 A’xB”xC’xD’xE? 0,0084 % 


Steffi Graf, 
Geburtsjahr 1969 A*xB?’xC?xD’xE’ 0,0032 % 


Wiedervereini- 
gung von BRD 
und DDR 1989 A’xB'xC?’xD"xE* 0,0007 % 


Entdeckung 
von Leben auf 


dem Mars 1996 A’xB’xC*’xD”xE’ 0,012% 


Länge des 

Suez-Kanals 

(km) 162,5  A’xB’xC’'xD”’xE" 0,02% 
Länge des Gro- 

ßen-St.-Bernhard- 

Tunnels (km) 3,83 A’xB!xC*xD’xE” 0,0083 % 


Länge des 

Euro-Tunnels 

(km) 50 A'xB’xC!xD?’xE° 0,027% 
Fläche Vene- 

zuelas im Jahre 

1990 (km?) 916050 A’xB’xC'xD!xE” 0,02% 


Ereignis / 
Sachverhalt 
Länge der Chi- 
nesischen 
Mauer (km) 2450 A?xB!xC’xD"xE* 0,002 % 
Roheisenerz- 

erzeugung der 

VR China im 

Jahre 1990 

(Mio. Tonnen) 62,4 A'xB'xC”’xD'xE? 0,016 % 
Einwohner Ber- 

lins, 3. Oktober 

1990 3314004 A’xB’xC'xD'xE’ 0,000001 % 


Einwohnerzahl 

in Timmendor- 

fer Strand im 

Jahre 1990 11500 A’xB*xC’xD’xE” 0,014% 


Rufnummer 

des Rettungs- 

dienstes in 

Baden- 

Württemberg 19222  A'xB’xC*’xD*xE* 0,0012 % 


Zahl Formel Präzision 


Doch damit nicht genug — Beque-Bolt und Du Pain melden sich 
nochmals mit einer schier unglaublichen Unterstellung zu Wort: 
Man berechne mit den alten Winkelmann’schen Zahlen und For- 
meln für n und e die dazugehörigen Präzisionen. Nun könne man 
die nicht abgezählten, sondern gemessenen Zahlen A, D und E ein 
klein wenig abändern und dabei die Genauigkeit optimieren. Ein 
Computerprogramm schaffe das in Sekunden. Dieser Einwand 
kommt dem Vorwurf des Betruges gleich und wird von der Ge- 
meinde internationaler Zepterforscher verständlicherweise nicht 
ernst genommen. 

Zu einem letzten Aufbäumen gegen die bahnbrechenden Er- 
kenntnisse der nunmehr molekularen Zepterforschung kommt es 
im Jahr 2001. Die Veranstalter der Vorlesung «Vom Irrtum zum 
Lehrsatz» an der Universität Hamburg behaupten vergeblich, das 


209 


Abbildung 46: Das Genuesische Zepter, das bereits vor fünftausend Jah- 
ren, also lange vor Erfindung der Nudel, in der Form eines Nudellöffels 
gefertigt wurde. Technische Daten nach Maghi: Gesamtlänge A = 
294,7741 Millimeter; Anzahl der Zinken B = 11; Anzahl der Löcher im 
Griff C = 3; größte Breite D = 70,0826 Millimeter; kleinste Breite E = 
20,0156 Millimeter. 


Zepter sei ein einfacher Nudellöffel (Abbildung 46), und sie hätten 
diese echte, aber unwahre Geschichte erfunden, um zu zeigen, dass 
man mit sinnlosen Modellen vieles erklären kann. -— Aber auch 
diese letzten Zweifler werden mit dem einleuchtenden Argument 
vertrieben, dass es vor fünftausend Jahren noch gar keine Nudeln 
gegeben habe. 


Lady Dis Baseballkappe 
Über wissenschaftliche Spekulationen 


Bitte ziehen Sie jetzt nicht den Schluss, alle mathematischen Mo- 
delle und Computersimulationen seien nutzlos. Es gibt sehr nützli- 
che Anwendungen dieser Verfahren, wie sie beispielsweise Dietrich 
Dörner in seinem Buch Die Logik des Misslingens (1989) be- 
schreibt. 

Das einfachste und wichtigste Kriterium zur Beurteilung eines 
mathematischen Modells ist, ob es auf reale Daten, das heißt ge- 
messene Ergebnisse, angewandt wurde. Erstaunlicherweise kon- 
frontieren viele Wissenschaftler, die Modelle entwickeln, ihre 
Schöpfungen überhaupt nicht mit der Realität. Solche Berech- 
nungen aus dem Elfenbeinturm sind für den praktischen Einsatz 
vollkommen wertlos. Modelle müssen an harten Fakten erprobt 
werden. Je größer die Anzahl erfolgreicher unabhängiger Anwen- 
dungen auf Untersuchungsergebnisse, umso größer die Wahr- 
scheinlichkeit, dass sich das Modell auch auf weitere Datensätze 
übertragen lässt. 

Eine bewährte wissenschaftliche Vorgehensweise wird mit frag- 
licher Berechtigung William von Ockham zugeschrieben, der im 
14. Jahrhundert lebte. «Ockhams Rasiermesser » besagt, dass von 
zwei gleichwertigen Hypothesen die einfachere zu bevorzugen ist. 
Diese rationale Rasur ist ein probates Mittel gegen allerlei Absei- 
tigkeiten® und kann analog auch bei mathematischen Modellen 
eingesetzt werden, indem man sich auf möglichst wenige Parame- 
ter beschränkt. Es gibt eindeutige Kriterien dafür, wie viele Para- 
meter für bestimmte Probleme sinnvoll sind, aber nicht jeder hält 
sich daran. 

Ein weiteres wichtiges Kriterium für die praktische Bedeutung 
eines Modells ist die Frage nach den expliziten und den impliziten 


2 Das Rasiermesser haben wir bei Randow (1994) gefunden. Gero von 
Randow setzt sich kritisch mit diesem « Faulheitsprinzip» auseinander und 
führt einige interessante Gegenargumente zur vorschnellen Anwendung 
von «Ockham’s blade» an. 
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Annahmen, die für die mathematische Formulierung notwendig 
waren. Sie entsprechen dem Kleingedruckten bei einem Kaufver- 
trag. Besonders verdächtig ist, wenn überhaupt keine Prämissen er- 
sichtlich sind. Ein krasses Beispiel für ein Modell, das auf völligem 
Unsinn beruht, ist die so genannte Ellis-Formel, mit der lange Zeit 
die Dosen bei der Strahlentherapie von Tumoren berechnet wur- 
den (Willers und Beck-Bornholdt 1996). Der Formel lag unter an- 
derem implizit die Annahme zugrunde, dass sich Tumorzellen 
nicht vermehren, was natürlich biologisch vollkommen unsinnig 
ist. Zellen, die sich nicht vermehren, können keinen Tumor bilden. 
Darüber hinaus beruhte die gesamte Formel auf einem Fehler bei 
der Darstellung der Messergebnisse (Thames und Hendry 1987). 
Und doch hat sie über Jahrzehnte das Denken und Handeln in der 
Strahlentherapie beherrscht - noch bis 1997 berechneten einige 
prominente Mediziner damit ihre Strahlendosen. Nach Lektüre der 
Originalarbeit (Ellis 1969), die offenbar kaum jemand gelesen hat, 
ist nicht zu verstehen, weshalb die Ellis-Formel überhaupt zur 
Kenntnis genommen wurde. 

Was haben Diskussionen auf wissenschaftlichen Fachtagungen 
mit Lady Dis Baseballkappe vom Winter 1995 gemeinsam? Ihren 
sportlichen Kopfschmuck zierte die aus irgendwelchen Gründen 
für ungewöhnlich gehaltene Zahl 492, was ebenfalls Anlass zu er- 
regten Debatten gab. Denn keine Frage — auf derart erlauchtem 
Kopf getragen, musste die Zahl etwas bedeuten. «Der Monarchie- 
experte der Zeitung «Times» hatte spekuliert, der Code sei eine An- 
spielung auf die ersten drei Buchstaben des Spitznamens «Dibbs>, 
den die Prinzessin ihrem Geliebten James Hewitt gegeben hatte», 
berichtete das Hamburger Abendblatt Ende 1995. «So stehe die 
Vier für D, den vierten Buchstaben des Alphabets, und so weiter. 
Leser der «Times» hielten diese Erklärung für abwegig. Ein Sportler 
mutmaßte, Diana spiele auf den Kapitän der Kricket-National- 
mannschaft, Michael Atherton, an. Er hatte beim letzten Testspiel 
gegen Südafrika 492 Bälle erfolgreich geschlagen. Nach Einschät- 
zung eines Musikexperten gibt die Kombination 492 hingegen An- 
laß zur Hoffnung für jene, die noch immer auf eine Aussöhnung 
von Diana und Charles setzen. Im Köchelverzeichnis trägt nämlich 
Mozarts Oper «Die Hochzeit des Figaro> die Nummer 492 - und 
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darin kommt es zum Happy-End.» - Alle Hoffnungen auf ein Hap- 
py-End mussten zwei Jahre später begraben werden.” 

Oft geht es bei hochtrabenden wissenschaftlichen Diskussionen 
auch nicht anders her. Je weniger wir von einer Sache verstehen, 
umso ausschweifender können wir darüber diskutieren. 


3 Und wer jetzt noch sehr viel Zeit hat und sich für historische Ereignisse 
interessiert, der gebe der Suchmaschine seines Vertrauens den Auftrag 
«9-11 numerology». 


Wahlkreistango, kriminelle 
Vereinigungen und 
krebsresistente Linkshänder 
Datenschiebereien und Paradoxa 


In diesem Kapitel zeigen wir Ihnen, wie eine Partei einen höheren 
Prozentsatz der Wähler hinter sich bringen kann, ohne eine einzige 
Stimme hinzuzugewinnen. Sie werden sehen, wie ein neues Medi- 
kament, das in allen Krankenhäusern schlechtere Ergebnisse liefert 
als das herkömmliche, auch ohne bösen Vorsatz insgesamt besser 
abschneidet. Sie werden erfahren, dass Linkshänder seltener Krebs 
bekommen als Rechtshänder und wie ein Unternehmen durch ge- 
schickte Umverteilung von Mitarbeitern in allen Filialen deutliche 
Umsatzsteigerungen erzielt, ohne mehr zu verkaufen. 


Der Hund, der Eier legt 
Verwechslung von Anzahl und Anteil 


Was manche Leute sich selbst vormachen, 
das macht ihnen so schnell keiner nach. 
Gerhard Uhlenbruck 


Eine besonders vertrackte Manipulationsmethode bei der Darstel- 
lung von Daten ist die Verwechslung von Anteil und Anzahl. 
Manchmal ist sie so versteckt und irreführend, dass wir den Ein- 
druck haben, viele Anwender bedienten sich ihrer nicht vorsätz- 
lich, sondern seien selbst darauf hereingefallen. Auch uns passiert 
das immer wieder. 

Diese Art der Verwechslung kann viel bewirken. Auf magisch 
anmutende Weise entstehen dann plötzlich Effekte, wo keine sind. 
Mitunter werden bei der Interpretation wissenschaftlicher Daten 
sogar Schlussfolgerungen gezogen, die das Gegenteil dessen besa- 
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gen, was sie tatsächlich belegen. Das Jonglieren mit Prozentzahlen 
ist ein Wundermittel gegen unliebsame und für erwünschte Ergeb- 
nisse. Zur Immunisierung haben wir ein paar Beispiele zusammen- 
gestellt. 

Für die Fischereiwirtschaft von großem Interesse und deshalb 
sorgsam überwacht ist der Anteil der Nutzfische am Gesamtfang, 
das heißt der Prozentsatz der Fische, die man verkaufen kann. Ab- 
bildung 47 zeigt seine (von uns erfundene) Entwicklung in einem 
Fluss unterhalb von Sudelhafen. Dort wurde vor zehn Jahren eine 
neue Kläranlage in Betrieb genommen, sodass sich der Eintrag 
von Schadstoffen in das Flusswasser reduzierte. Danach war der 
Anteil der Nutzfische innerhalb von zehn Jahren von 10 auf 90 
Prozent angestiegen. Dies entsprach einer Verneunfachung des Be- 
standes —- oder? Das Landesministerium nahm diese Ergebnisse 
freudig auf und leitete ähnliche Maßnahmen für analoge Situatio- 
nen ein. Das Bundesumweltministerium erwog spezielle Förder- 
maßnahmen bei Übernahme dieses erfolgreichen Modells durch 
die Kommunen. 
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Abbildung 47: Entwicklung des Nutzfischbestandes in einem Fluss 
nach Inbetriebnahme einer Kläranlage 
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Leider stellt sich die Situation jedoch ganz anders dar als erhofft. 
Abbildung 48 zeigt eine der unendlich vielen (!) Möglichkeiten, 
wie sich die tatsächliche Anzahl der Fische verändert haben 
könnte. Beispielsweise könnte die der Nutzfische konstant bei 250 
geblieben sein, die der anderen Fische aber drastisch abgenommen 
haben, und zwar von 2250 auf etwa 25. Dadurch steigt natürlich 
der Anteil beziehungsweise der Prozentsatz der Nutzfische. Dieser 
kann sich übrigens auch dann noch erhöhen, wenn ihr tatsäch- 
licher Bestand sinkt. Dazu müssen die anderen Fische nur etwas 
schneller sterben, als in der Abbildung wiedergegeben. 


—#- Andere Fische 
-0- Nutzfische 


Anzahl der Fische 


Es EX Size ze nz 
0 2 4 6 8 © 


Jahre nach Inbetriebnahme 
der Kläranlage 


Abbildung 48: Mögliche Entwicklung der Anzahl der Nutzfische in einem 
Fluss nach Inbetriebnahme einer Kläranlage. Diese Ergebnisse stimmen 
mit den Anteilen der Abbildung 39 überein. 


Noch auffälliger ist der Fehlschluss in folgender Geschichte: Auf 
dem Küchentisch liegen sieben Würstchen und drei Eier, also zu- 
sammen zehn Dinge (Abbildung 49). Die Eier machen somit 30 
Prozent (3/10 = 0,3 oder 30%) der Gegenstände auf dem Tisch 
aus. Dann betritt ein Hund unbeobachtet den Raum. Er frisst fünf 
Würstchen auf - mehr schafft er beim besten Willen nicht. Jetzt 
sind noch zwei Würstchen und drei Eier übrig, also insgesamt fünf 
Dinge. Der Eieranteil beträgt jetzt 60 Prozent (3/5 = 0,6 oder 
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Be ah 


Abbildung 49: Der Hund, der Eier legt, bei der Arbeit 


60 %). Durch die wunderbare Tat des Hundes hat er sich verdop- 
pelt! So weit ist noch alles richtig, aber zu folgern, dass sich die An- 
zahl der Eier verdoppelt hat und der Hund somit Eier legen kann, 
ist schlicht falsch. Diese Geschichte klingt unglaublich banal, hat 
aber zahlreiche Parallelen in der wissenschaftlichen Literatur!. Das 
folgende Beispiel ist symptomatisch. 

In den letzten Jahrzehnten wurde in den Industrienationen eine 
kontinuierliche Zunahme der Todesursache Krebs verzeichnet. In 
Deutschland stirbt mittlerweile etwa jeder Vierte an dieser Erkran- 
kung, eine Entwicklung, die viele auf eine höhere Schadstoffbe- 
lastung und ungesündere Lebensweise der Menschen zurückfüh- 
ren. Ein Beispiel für diese Auffassung ist ein Artikel mit dem Titel 
«Verursachen Umwelt-Östrogene Brustkrebs?» in der Zeitschrift 
Spektrum der Wissenschaft (Davis et al. 1995). Die Autoren wol- 
len zeigen, dass in den USA Brustkrebserkrankungen während der 
letzten zwei Jahrzehnte deutlich zugenommen haben (Abbildung 
50). In der Grafik ist die Anzahl der diagnostizierten Fälle pro 
100000 Frauen gegen die Jahreszahl aufgetragen. Die mittlere 
Kurve zeigt den Verlauf für alle Frauen und lässt zwischen 1973 


1 Vergleiche hierzu Hall (1988), Seite 252-253, Abschnitt « Accelerated 
repopulation». 
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Abbildung 50: Zunahme der Brustkrebshäufigkeit bei Frauen in den USA 
(Davis et al. 1995) 


und 1991 einen Anstieg von etwa 80 auf etwa 110 je 100000 
Frauen erkennen. Bei der oberen Kurve, die die Ergebnisse für 
Frauen über fünfzig Jahre darstellt, ist diese Zunahme deutlicher, 
nämlich von etwa 250 auf etwa 340 je 100000. Die untere Kurve 
zeigt den Verlauf bei den Jüngeren unter fünfzig Jahren. Hier er- 
kranken etwa dreißig von 100000 jährlich. Ein Anstieg ist nicht 
zu erkennen. 

Abbildung 50 zeigt sehr deutlich, dass Brustkrebs mit zuneh- 
mendem Alter immer wahrscheinlicher wird. Die Erkrankung tritt 
bei Frauen über fünfzig etwa zehnmal häufiger auf als bei Frauen 
unter fünfzig. Diese sind jährlich in etwa dreißig, jene in etwa drei- 
hundert Fällen pro 100000 betroffen. 

Der Spektrum-Artikel berücksichtigt nicht, dass die Lebenser- 
wartung in dem betrachteten Zeitraum erheblich zugenommen 
hat. Dieser Umstand hat auf die Alterszusammensetzung der 
«Frauen unter fünfzig» kaum Auswirkungen, denn die älteste 
Frau in dieser Gruppe ist nach wie vor 49 Jahre alt. Bei ihnen hat 
sich die Anzahl der Erkrankungsfälle in den beiden letzten Jahr- 
zehnten nicht geändert (untere Kurve in Abbildung 50). Das 
Durchschnittsalter der «Frauen über fünfzig» hingegen ist deut- 
lich höher, denn es gibt heute viel mehr Achtzig- und Neunzigjäh- 
rige als noch vor zwanzig Jahren. Die ansteigende Krebshäufigkeit 
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bei dieser Gruppe geht also zumindest teilweise auf das wachsende 
altersbedingte Krebsrisiko zurück. Eine reale Zunahme des Er- 
krankungsrisikos besteht nur, wenn sie bei Gleichaltrigen beob- 
achtet wird. Der Zuwachs der Krebsinzidenz kann paradoxer- 
weise eine gute Nachricht sein, weil er auf eine höhere Lebenser- 
wartung hinweist. 

Erlauben Sie uns, ein wenig zu übertreiben: Herz-Kreislauf-Er- 
krankungen und Krebs sind in den Industrienationen die häufigs- 
ten Todesursachen. Wenn es gelänge, Erstere mit einem Wunder- 
mittel auszuschalten, würde der Anteil der Krebstoten zunehmen. 
Wer nicht an Herz-Kreislauf-Versagen stirbt, der stirbt an etwas 
anderem. Und die häufigste dieser anderen Todesursachen ist 
Krebs. Es erscheint nicht allzu abwegig, dass wir dann mit der 
Katastrophenmeldung «Herzpillen verursachen Krebs!» rechnen 
müssen. In den USA würde die Herstellerfirma wegen der zahlrei- 
chen Prozesse bald Konkurs anmelden, und auch in Europa hätten 
die Kläger mit ihren Protesten wahrscheinlich auf Dauer Erfolg, so- 
dass das Wundermittel aus dem Verkehr gezogen werden müsste. 
Die Menschen würden wieder wie früher und viel früher an Herz- 
Kreislauf-Erkrankungen sterben. Und die Krebsrate nähme endlich 
wieder ab. 

Berichte über weniger Todesfälle infolge von Krebs und Herz- 
Kreislauf-Versagen in weniger entwickelten Ländern sind also nicht 
unbedingt ein Beweis für gesündere Umwelt, Ernährung und Le- 
bensführung, sondern können auf die geringere Lebenserwartung in 
diesen Regionen zurückgeführt werden. Wer mit dreißigan Cholera 
stirbt, kann nun mal nicht mit fünfundsiebzig an Krebs erkranken. 

Nach demselben Muster strickten zwei Chirurgen der Universi- 
tät Lund in Schweden einen eher amüsanten Trugschluss. Sie be- 
richteten in einer europäischen Fachzeitschrift (Olsson und Ingvar 
1991), dass unter 395 von ihnen untersuchten Patientinnen mit 
Brustkrebs lediglich sechs Linkshänderinnen waren. Dieser Anteil 
von 1,5 Prozent liegt deutlich unter dem Durchschnitt der weib- 
lichen Bevölkerung in Südschweden, der etwa 5 Prozent beträgt 
(258 von 5158 befragten Frauen). Die Händigkeit wurde danach 
bestimmt, mit welcher Hand die Frauen schrieben, ungeachtet der 
Tatsache, dass es viele Linkshänderinnen gibt, denen aufgezwun- 
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gen wurde, mit rechts zu schreiben. Der Unterschied zwischen 1,5 
und 5 Prozent ist hoch signifikant.” Die beiden Chirurgen führen 
ihren Befund darauf zurück, dass hormonelle Faktoren in der frü- 
hesten Kindheit sowohl die Händigkeit als auch das Brustkrebsri- 
siko festlegen. Sind Linkshänderinnen wirklich resistenter gegen 
Brustkrebs? Einleuchtender klingt eine andere Erklärung, die von 
Lowry (1992) stammt und der wir uns in der ersten Auflage dieses 
Buches anschlossen: Eine amerikanische Studie zeigte, dass Links- 
händer eine neun Jahre geringere Lebenserwartung haben als 
Rechtshänder (Halpern und Coren 1991). Brustkrebs ist eine Al- 
terskrankheit. Und wenn Linkshänderinnen nicht so alt werden 
wie Rechtshänderinnen, dann haben sie dadurch ein geringeres Ri- 
siko, Brustkrebs zu entwickeln. Der Biologe Peter Kayatz machte 
uns in einem Leserbrief jedoch darauf aufmerksam, dass wir damit 
selbst einem Trugschluss aufgesessen waren. Kayatz lieferte die 
einfache Erklärung, «dass das durchschnittliche Alter von Frauen 
mit Brustkrebs höher ist als das durchschnittliche Alter von 
Frauen ohne Brustkrebs und dass der Anteil links schreibender 
Frauen mit dem Alter abnimmt, da in früheren Zeiten während 
der Erziehung mehr Wert auf das «richtige» Schreiben mit der rech- 
ten Hand gelegt wurde als heute ... Der Fehler läge somit darin, 
dass man stillschweigend davon ausgegangen ist, der Anteil links 
schreibender Frauen im «Brustkrebsalter> sei gleich dem durch- 
schnittlichen Anteil links schreibender Menschen. Und das ist of- 
fenbar falsch.» Diese Überlegung erklärt auch die Beobachtung 
von Halpern und Coren (1991), der zufolge die Lebenserwartung 
von Linkshändern um durchschnittlich neun Jahre verkürzt sei. 


2 Die Berechnung erfolgt, wie gewohnt, mit dem Vierfeldertest: 
Linkshän- Rechtshän- Summe 


derinnen derinnen 
Brustkrebspatientinnen 6 389 395 
Weibliche Bevölkerung 258 4900 5158 
Summe 264 5289 5553 


2 _ 5552 x (389 x 258 - 6x 4900)” 
264 x 5289 x 5158 x 395 


= 9,83 
Das Ergebnis ist hoch signifikant (p < 0,002). 
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Die Händigkeit wurde aber auch hier einfach durch Befragung 
festgestellt, mit welcher Hand die Testperson schreibt und wirft. 
Halpern und Coren haben demnach lediglich beobachtet, dass der 
Anteil von Linkshändern bei älteren Leuten geringer ist als der 
Durchschnitt, und somit darauf geschlossen, dass Linkshänder 
früher sterben. 

Ein Spitzenergebnis der Verwechslung von Anteil und Anzahl ist 
ein in dem angesehenen New England Journal of Medicine erschie- 
nener Artikel über die Besetzung von Spitzenpositionen in den Kin- 
derkliniken der USA (Kaplan et al. 1996). Anlass der Studie war 
die Beobachtung, dass diese Posten meist von Männern bekleidet 
werden, obwohl der Frauenanteil in der Kinderheilkunde beson- 
ders groß ist. Um die Ursache ausfindig zu machen, wurde die Ver- 
teilung der Arbeitszeit auf die drei Bereiche Krankenversorgung, 
Lehre und Forschung untersucht. Dabei zeigte sich, dass Frauen ei- 
nen größeren Anteil ihrer Arbeitszeit auf Krankenversorgung (46 
Prozent) und Lehre (31 Prozent) verwenden als Männer (44 bezie- 
hungsweise 30 Prozent), aber einen kleineren (23 gegenüber 26 
Prozent) mit Forschung zubringen. Dieser Unterschied war statis- 
tisch signifikant. Da wissenschaftliche Produktivität für eine aka- 
demische Karriere unerlässlich ist, schließt die Studie mit der Fest- 
stellung, dass Frauen in ihrem beruflichen Fortkommen benachtei- 
ligt sind, weil sie mehr Zeit in die Krankenversorgung und Lehre 
investieren als Männer. 

Diese Schlussfolgerung ist jedoch falsch. In der Untersuchung 


Tabelle 31: Relative und absolute wöchentliche Arbeitszeit 


Wöchentliche Wöchentliche RR 
RE EL Zusätzliche 
Arbeitszeit Arbeitszeit SEHE 
i e Arbeitszeit 
in Prozent in Stunden de Möma 
Männer Frauen Männer Frauen 
Forschung 235,6 % 23,4% 16,5 14,2 +17% 
Lehre 30,3% 30,8% 195 18,6 + 5% 
Krankenver- 
sorgung 44,1% 45,8% 28,4 27,7 + 3% 
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wird beiläufig erwähnt, dass die Frauen im Durchschnitt 60,5, die 
Männer im Mittel 64,4 Stunden wöchentlich arbeiten. Aus diesen 
Angaben kann man die tatsächlich geleisteten absoluten Arbeits- 
stunden berechnen und stellt fest, dass die Männer nicht nur mehr 
Zeit für Forschung, sondern auch für Lehre und Krankenversor- 
gung aufwenden (Tabelle 31). Die geringeren Aufstiegschancen der 
Kinderärztinnen in den USA sind daher nicht auf ihre stärkere Be- 
lastung mit Routineaufgaben zurückzuführen, sondern darauf, 
dass die männlichen Kollegen zumindest im Beruf signifikant mehr 
arbeiten. Sicherlich wäre es interessant, herauszufinden, weshalb 
sie mehr Zeit in ihren Beruf investieren können oder wollen. Obige 
Studie trägt nicht zur Aufdeckung der Ursachen, sondern eher zu 
deren Verschleierung bei. Unseren Leserbrief, in dem wir auf diesen 
Trugschluss hinwiesen, hat die Zeitschrift nicht abgedruckt. 

Man kann den in diesem Kapitel beschriebenen Trugschluss na- 
türlich auch andersherum begehen und Anzahlen für Anteile hal- 
ten. Unter der Überschrift «Gefährlicher Sport» war im Hambur- 
ger Abendblatt vom 5. 9. 1996 zu lesen: «Fußballer haben unter 
Sportlern ein besonders hohes Risiko, an Herzinfarkt zu sterben. 
Dies ergab eine Ärztestudie aus Ludwigshafen. Von 2052 Todesfäl- 
len beim Sport gingen 421 auf das Konto von Fußballern, 135 von 
Tennisspielern und 91 von Turnern.» Jetzt dürfen Sie einmal raten, 
in welcher Reihenfolge diese Sportarten auf der Beliebtheitsskala 
des Freizeitsports stehen. 


Kriminelle Vereinigung 
Unzulässiges Gruppieren von Daten 


Der Mensch besteht zu über 80 Prozent 
aus Eitelkeit und Wasser. 
Hans-Hermann Dubben 


Ein triviales Beispiel für unzulässiges Gruppieren von Daten ist 
etwa die Zeitungsmeldung «Hunderttausend Tote und Obdach- 
lose durch Überschwemmungen in Bangladesch». Das hört sich 
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dramatisch an und ist eine Schlagzeile wert. Die differenziertere 
Meldung «Zwei Tote und etwa hunderttausend Obdachlose ...» 
erscheint weniger sensationell. Durch unzulässiges Gruppieren 
werden die Leser mit der reinen Wahrheit in die Irre geführt. 

Eine «wissenschaftliche» Variante dieses Vorgehens zeigt Ab- 
bildung 51 mit den Originaldaten einer viel beachteten (Withers 
1992) internationalen Studie der Radioonkologie (Horiot et al. 
1992). Die schraffierten Balken zeigen die Resultate der Standard- 
therapie, die schwarzen Balken die Ergebnisse einer neuen Me- 
thode, die eine geliebte Erfindung der Autoren jener Studie ist und 
entsprechend favorisiert wird. Auf der rechten Seite der Abbil- 
dung ist die Häufigkeit schwerer Nebenwirkungen aufgetragen. 
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Abbildung 51: Häufigkeit moderater und schwerer Nebenwirkungen in 
einer international renommierten Studie zur Strahlentherapie von Tumo- 
ren im Hals-Kopf-Bereich. 

Links: Veröffentlichte Daten - moderate und schwere Nebenwirkungen 
werden in einen Topf geworfen. 

Rechts: Nicht veröffentlichte Daten - die entscheidenden schweren Neben- 
wirkungen. 


Die neue Therapie schneidet deutlich schlechter ab, da bei ihr etwa 
doppelt so viele schwere Nebenwirkungen auftreten wie bei der al- 
ten Behandlung, ein Resultat, über das die Initiatoren der Studie 
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sicherlich nicht erfreut waren, und sie haben es mit diesem deut- 
lichen Befund auch nie publiziert’. Andererseits ist es nur schwer 
möglich, über solche Ergebnisse zu berichten, ohne die Neben- 
wirkungen zu erwähnen, und so wurden die schweren mit den mo- 
deraten, die in Anbetracht der Schwere der Erkrankung belanglos 
sind, für die Veröffentlichung vermischt (Abbildung 51 links). 
Durch diese Verwässerung der ursprünglichen Daten erscheinen 
beide Behandlungen annähernd gleichwertig, denn der kleine Un- 
terschied von 30 zu 32 Prozent ist ohne Bedeutung. 

Alles andere als belanglos ist, dass diese frisierten Ergebnisse 
mittlerweile auch in den Lehrbüchern über Radioonkologie als Be- 
weis für geringe Nebenwirkungen bei Anwendung der neuen Me- 
thode angeführt werden (Horiot 1993; Joiner 1993). 

Eine besonders unverschämte Variante des unzulässigen Grup- 
pierens fanden wir in einem Bericht eines amerikanischen Krebs- 
zentrums (Cox et al. 1991). Zum Verständnis der Manipulation, 
die wir dort entdeckten, sind ein paar Vorbemerkungen erforder- 
lich. Um herauszufinden, ob eine neue Therapie besser ist als die 
konventionelle, wird bei klinischen Studien üblicherweise eine 
Gruppe von Patienten einer oder mehrerer gemeinsam forschender 
Kliniken über einen bestimmten Zeitraum entweder mit dem 
neuen oder dem Standardverfahren behandelt. Welcher Patient 
welche der beiden Therapien erhält, entscheidet das Los. Dieses 
Vorgehen heißt «Randomisierung». Es verhindert bewusste oder 
unbewusste Manipulationen bei der Zuordnung der Patienten zu 
den Therapieformen. Ein Arzt, der eine von ihm entwickelte Be- 
handlungsmethode mit einer konventionellen vergleichen will, 
könnte sonst Patienten mit besonders guten Heilungschancen vor- 
zugsweise seiner eigenen und die besonders schwierigen Fälle dem 
Standardverfahren zuordnen. Auf Seite 245 f. werden wir auf die 
Randomisierung genauer eingehen. 


3 Es sei an dieser Stelle angemerkt, dass die Ergebnisse der Studie aller 
Wahrscheinlichkeit nach dennoch positiv sind, denn die neue Methode 
war wesentlich wirksamer in der Tumorvernichtung als die Standardthera- 
pie. Die häufigeren schweren Nebenwirkungen sind jedoch ein erheblicher 
Schönheitsfehler, den man eben, so gut es ging, versteckt hat (Beck-Born- 
holdt et al. 1997). 
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Ist eine Studie abgeschlossen, wird das Ergebnis veröffentlicht. 
Der erste Teil solcher Berichte dokumentiert üblicherweise, dass 
die Patienten hinsichtlich des Schweregrades ihrer Erkrankung 
gleichmäßig auf die beiden Behandlungsarten verteilt wurden. Ta- 
belle 32 zeigt diese Zuordnung für die oben erwähnte Untersu- 
chung (Cox et al. 1991). Die Gruppierung erfolgte nach den das 
Ausmaß der Erkrankung charakterisierenden Tumorstadien. Im 
Allgemeinen sind Tumoren im Stadium T1 sehr klein und gut the- 
rapierbar, sodass der Patient eine sehr gute Heilungschance hat. 
Die Stadien T2, T3 und T4 bezeichnen in dieser Reihenfolge 
Tumoren mit jeweils größerer Ausdehnung und entsprechend 
schlechteren Prognosen. Im Vergleich zwischen den beiden Spalten 
unterscheiden sich die in der Tabelle angegebenen Prozentzahlen 
nicht nennenswert. Exakt gleiche Werte kann man nicht erwarten, 
weil es immer geringfügige statistische Schwankungen gibt. 

Als wir diese Arbeit im Rahmen unseres Seminars diskutierten, 
wären wir beinahe auf den Trick der Autoren hereingefallen. Ge- 
naueres Hinschauen zeigt nämlich, dass in der rechten Zahlen- 
spalte zwar die Angaben für die Patienten der neuen Behandlung 
eingetragen sind, in der linken Zahlenspalte jedoch nicht, wie man 
erwarten sollte, die der Standardtherapie, sondern die Werte für 
beide zusammen. Korrigiert man die Tabelle und vergleicht das 
neue mit dem herkömmlichen Verfahren, so zeigt sich ein deut- 


Tabelle 32: Beispiel für einen besonders schweren Fall einer unzulässigen 
Gruppierung 


Beide Neue 
Behandlungen Behandlung 


Gesamtzahl der 


behandelten Patienten 120 79 
Tumorstadium 

T1 1% 0% 
T2 35% 39% 
T3 27% 28% 
T4 37% 33% 
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Tabelle 33: So hätte Tabelle 32 aussehen müssen. Es ist offensichtlich, 
dass die neue Behandlung mehr von den günstigeren Fällen abbekommen 
hat. 


Standard- Neue 
behandlung Behandlung 


Gesamtzahl der 


behandelten Patienten 41 79 
Tumorstadium 

T1 3% 0% 
T2 27% 39% 
T3 24% 28% 
T4 46% 33% 


Beispiel für die Berechnung anhand der letzten Zeile (T4): Tabelle 32 gibt 
an, dass sich 37 Prozent aller Tumoren im T4-Stadium befanden. 37 Pro- 
zent von 120 Patienten sind 45. Bei 33 Prozent der 79 mit dem neuen Ver- 
fahren behandelten Fälle, also bei 26 Patienten, sind T4-Tumoren festge- 
stellt worden. Somit bleiben 45 - 26 = 19 Patienten mit T4-Tumoren für die 
Standardbehandlung, das sind 19/41 = 46 Prozent. 


liches Ungleichgewicht der Patienten (Tabelle 33). Bei der neuen 
Behandlung haben 39 Prozent der Patienten die günstigen Stadien 
T1 und T2, während es bei der alten nur 30 Prozent sind. Dafür ge- 
hören der linken Gruppe deutlich mehr Patienten mit dem ungüns- 
tigen Stadium T4 an als der rechten. 

Bei dieser Art der Falschgruppierung kann Vorsatz nicht ausge- 
schlossen werden. Die Studie, die natürlich einen Vorteil der neuen 
Behandlung «nachwies», löste in den USA eine ganze Reihe von 
Folgeuntersuchungen mit Hunderten von Patienten aus, die alle 
auf diesen ungültigen Ergebnissen basierten. Sie wären nie durch- 
geführt worden, wenn das Ungleichgewicht bei der Verteilung der 
Patienten auf die beiden Verfahren offensichtlich gewesen wäre. 
Wir halten dieses Vorgehen für unethisch und unwissenschaftlich. 
Es ist erstaunlich, dass dieser faule Trick den Beteiligten der Folge- 
studien nicht aufgefallen ist. 
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Besorgnis erregend ist allerdings, dass unser Versuch, auf diese 
unzulässige Gruppierung im Rahmen einer wissenschaftlichen Pu- 
blikation aufmerksam zu machen, von einem der Fachgutachter 
mit dem Argument torpediert wurde, dass bei Veröffentlichung der 
Tabelle 32 eine Strafverfolgung durch die amerikanischen Behör- 
den zu befürchten wäre.* Offenbar ist der Sachverständige an einer 
Verheimlichung auf Kosten der zukünftigen Patienten interessiert. 
Glücklicherweise hatte sein Vertuschungsversuch keinen Erfolg. 
Nach Überwindung einiger Schwierigkeiten wurde unser Manu- 
skript zur Veröffentlichung angenommen (Beck-Bornholdt et al. 
1997). 

Den Autoren der genannten Studie sind aus unserer Veröffent- 
lichung bis heute keinerlei Nachteile erwachsen. Ob in Amerika die 
europäischen Fachzeitschriften überhaupt gelesen werden? 


Schwimmen wie ein Fisch ... 
Unfaire Vergleiche 


Schwimmen wie ein Fisch ... im Wasser? Von Wasser hat niemand 
etwas gesagt oder geschrieben, aber der Leser wird es wahrschein- 
lich denken. Mit dieser Methode kann man auch tricksen, wie das 
folgende Beispiel zeigt: 

«Erkältet? », fragt uns der Hersteller von Gelomyrtol® forte auf 
seiner Website und lässt uns wissen: «Die Erkältungszeit hält an. 
Achten Sie auf wetterfeste Kleidung, trotz erster warmer Sonnen- 


4 Wörtlich schreibt der (anonyme) Fachgutachter zu unserem Artikel: «It 
would be very dangerous to publish a paper in which it is stated that the 
RTOG [das ist die amerikanische Fachgesellschaft, die die Studie durchge- 
führt hat] pretended a balanced distribution of prognostic factors in their 
hyperfractionation studies in non-small cell lung cancer. This implies that 
deception has taken place and any suggestion of such fraud would I think 
be hotly pursued in the courts.» 
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strahlen. Wenn der Virus sich in Bronchien und Nasennebenhöhlen 
festgesetzt hat, wird es wirklich unangenehm.»° 

Aber es gibt auch eine gute Nachricht: « In einer GCP-konfor- 
men, kontrollierten Studie (GCP: Good clinical practice) wurde 
eindrucksvoll bestätigt, dass Gelomyrtol® forte bei der Behand- 
lung der akuten Bronchitis einer antibiotischen Therapie mindes- 
tens gleichwertig ist: Myrtol standardisiert erweist sich als ebenso 
erfolgreich ... wie ein modernes ... Antibiotikum erster Wahl.» So 
steht es in der Werbung. Zu deutsch: Eine erstklassige Studie hat 
gezeigt, dass Gelomyrtol mindestens genauso gut ist wie das beste 
derzeit verfügbare Antibiotikum. Dies ist eine erfreuliche Nach- 
richt, da bekanntlich mit Antibiotika möglichst sparsam umgegan- 
gen werden sollte. Ein Antibiotikum wird bei Infektionen einge- 
setzt, die bakteriell bedingt sind. Sie verhindern die Vermehrung 
von Bakterien und töten sie schließlich ab. Auf Viren haben Anti- 
biotika diese Wirkung nicht. Der Einsatzbereich des Gelomyrtols 
wird dadurch bereits sehr eingeschränkt, denn meist beruht eine 
Bronchitis auf einer Virusinfektion. Und wie war das bei den 
Patienten der Gelomyrtol-Studie? Erstaunlicherweise wurden in 
der von Matthys und Mitarbeitern (2000) durchgeführten Studie 
überhaupt keine Bronchitis-Patienten mit bakterieller Infektion be- 
handelt. Diese wurden ausdrücklich aus der Studie ausgeschlossen. 
Fazit: Gelomyrtol ist bei virus-bedingter Bronchitis gleichwertig 
mit einem modernen Antibiotikum, das in diesem Fall wirkungslos 
ist. Also: Schwimmen wie ein Fisch an Land. 

Eine andere beliebte Variante unfairer Vergleiche beruht darauf, 
dass man die Vergleichsbehandlung mit der falschen - meist viel zu 
geringen - Dosis durchführt. Und siehe da, das neue Medikament 
erweist sich als viel wirksamer. Kaum jemand achtet auf die Dosie- 
rung der Vergleichsbehandlung, sodass der Schwindel meist nicht 
auffällt. 


5 Ja, richtig, es heißt «das Virus», aber so steht es da nun mal am 22. 6. 
2006. 


Zweimal verloren und doch gewonnen 
Simpsons Paradoxon 


Mit dem Geist ist es wie mit dem Magen: 
Man kann ihm nur Dinge zumuten, die er verdauen kann. 


Winston Spencer Churchill 


Auch ohne Vorsatz anwendbar und zur Selbsttäuschung bestens 
geeignet ist «Simpsons Paradoxon»°. Bei diesem Verfahren wird 
ein Ergebnis unversehens ins Gegenteil umgewandelt, ohne dass 
man gleich durchschaut, weshalb. 

In einer von uns ausgedachten Studie wird ermittelt, wie gut ein 
neues Medikament anschlägt. Zwei Zentren tun sich zusammen, 
um die Versuche durchzuführen. In Porzellanstadt sind die Ärzte 
vorsichtig, sie verabreichen das neue Medikament nur etwa einem 
Fünftel ihrer Patienten, während die anderen das herkömmliche er- 
halten. Die Ärzte in Forschheim sind fortschrittsgläubiger, sie ge- 
ben das Testpräparat etwa vier Fünfteln ihrer Patienten. Nach län- 
gerer Zeit ergibt sich die in Tabelle 34 wiedergegebene Situation. 


Tabelle 34: Simpsons Paradoxon, erster Teil: Das neue Medikament ist in 
beiden Kliniken weniger wirksam als das herkömmliche. 


Behandlun Forschheim Porzellanstadt 

8 Herkömmlich Neu Herkömmlich Neu 
Anzahl der 
Patienten 250 1050 1050 250 
Effektivität 
der Behandlung: 
Nicht wirksam 70 420 630 180 
Wirksam 180 (72%) 630 (60%) 420 (40%) 70(28%) 


In Forschheim war das Standardmedikament bei 180 der 250 da- 
mit behandelten Patienten erfolgreich, also in 72 Prozent der 


6 Benannt nach dem britischen Statistiker E. H. Simpson, der es 1951 vor- 
stellte. Wir haben es aus Randow (1994). 
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Fälle. Das neue Präparat wirkte dagegen nur bei 630 der 1050 
Testpersonen. Das sind 60 Prozent, also 12 Prozentpunkte we- 
niger. 

In Porzellanstadt führte das herkömmliche Medikament in 420 
der 1050 Fälle zu einem Behandlungserfolg, also bei 40 Prozent. 
Das neue Medikament war dagegen nur bei 70 der 250 Patienten, 
das heißt bei 28 Prozent, wirksam. Die Differenz macht also eben- 
falls 12 Prozentpunkte aus. 

Das neue Wunschpräparat schlägt offenbar in beiden Zentren um 
12 Prozentpunkte weniger an als das herkömmliche. Die Initiatoren 
der Studie sind über das Ergebnis sehr unglücklich, denn sie haben 
viel Geld und Arbeit in die Entwicklung des Medikaments gesteckt. 

Im Kapitel zu publication bias hatten wir gesehen: Ergebnisse 
sind nicht gleich Ergebnisse. Studien mit positivem und solche mit 
negativem Ausgang sind zwei völlig verschiedene Paar Schuhe. Ers- 
tere werden mit größerer Wahrscheinlichkeit von den Autoren zur 
Veröffentlichung eingereicht. Auf ein positives Ergebnis kann man 
stolz sein. Wenn sich aber herausstellt, dass eine neue Therapie 
schlechter als das Standardverfahren ist, trägt dies nicht zum 
Ruhm eines Arztes bei. Daher werden negative Resultate meist lie- 
ber verschwiegen. 

Zurück zu unseren frustrierten, aber dennoch engagierten Ärz- 
ten aus Forschheim und Porzellanstadt. Diesmal haben sie Glück, 
denn eine Zeitschrift ist trotz des negativen Ergebnisses bereit, den 
Beitrag zu drucken. Der Herausgeber macht es jedoch zur Auflage, 
den Artikel zu kürzen, da er keine positiven neuen Erkenntnisse lie- 
fere und deshalb nicht so bedeutsam sei. Insbesondere sollten die 
Daten aus den beiden Kliniken zur Vereinfachung in einer einzigen 
Tabelle zusammengefasst werden. Die Wissenschaftler folgen die- 
sem Vorschlag und erhalten als verblüffendes Resultat die Tabelle 
35. 

Plötzlich erscheint das neue Mittel besser als das alte, denn die- 
ses war lediglich bei 600 der 1300 damit behandelten Probanden 
wirksam, während das neue Medikament bei 700 der 1300 Patien- 
ten eine erfolgreiche Therapie ermöglichte. Dies ist immerhin ein 
Unterschied von 8 Prozentpunkten. Je nachdem, ob wir die Ergeb- 
nisse getrennt (Tabelle 34) oder gemeinsam (Tabelle 35) betrach- 
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Tabelle 35: Simpsons Paradoxon, zweiter Teil: Fasst man die Ergebnisse 
beider Kliniken zusammen, so ist das neue Medikament plötzlich wirksa- 
mer als das herkömmliche. 


Behandlung Herkömmlich Neu 

Anzahl der 

Patienten 1300 1300 
Effektivität der 

Behandlung: 

Nicht wirksam 700 600 
Wirksam 600 (46 %) 700 (54 %) 


ten, ergibt sich für das Testpräparat im Vergleich zum herkömm- 
lichen entweder eine signifikante Verschlechterung um 12 oder 
eine signifikante Verbesserung um 8 Prozentpunkte. 

Dabei hat niemand geschummelt. Die Zahlen sind völlig kor- 
rekt. Aber auch hier wurden Ergebnisse in einen Topf geschmissen, 
die nicht zusammengehören. In Forschheim waren beide Medika- 
mente wirksamer als in Porzellanstadt. Dieses Phänomen ist viel 
häufiger zu beobachten, als man zunächst vermutet. Vorstellbar ist 
beispielsweise, dass sich die Altersstruktur der Bevölkerungen von 
Forschheim und Porzellanstadt deutlich unterscheidet, weil es in 
dem einen Ort zehn Seniorenheime gibt und im anderen zahlreiche 
Neubausiedlungen mit vielen jungen Familien. 

Simpsons Paradoxon ist außerordentlich gefährlich, denn es ist 
leicht zu übersehen. Nicht immer legen multizentrische Studien die 
Ergebnisse der einzelnen Kliniken offen. Dies wird meist vermie- 
den, um die schlecht abschneidenden Krankenhäuser nicht bloßzu- 
stellen. Obwohl zusammengefasste Statistiken auf den ersten Blick 
völlig korrekt erscheinen, können sie Informationen unterschla- 
gen. Wie oben gezeigt, wird es dadurch sogar möglich, dass sich 
Ergebnisse in ihr Gegenteil verkehren. Ein reales Beispiel stammt 


7 Dies ist ein inhärentes Problem bei allen multizentrischen Studien. Das 
Gegenmittel ist die so genannte stratifizierte Randomisierung, die dafür 
sorgt, dass der Anteil der Patienten, die mit einer bestimmten Methode be- 
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von der University of California in Berkeley (Bickel et al. 1975). 
Dort hatten sich 1973 zum Wintersemester 8442 Männer und 
4321 Frauen um einen Studienplatz beworben. Von den Männern 
erhielten 44 Prozent, von den Frauen 35 Prozent eine Zulassung, 
woraufhin die Universität der Frauendiskriminierung bezichtigt 
wurde, was wiederum durch eine sorgfältigere Datenanalyse ent- 
kräftet werden konnte. Tatsächlich verhielt es sich so, dass Frauen 
ihre Bewerbungen vorzugsweise für die Fächer mit ohnehin gerin- 
ger Zulassungsquote (auch für Männer) eingereicht hatten. Nach 
den einzelnen Fächern aufgeschlüsselt, ergab sich sogar eine Bevor- 
zugung der Studentinnen, was die Universität in Berkeley damals 
auch zu ihrem Ziel erklärt hatte. 

Eine weitere Simpson-Kapriole zeigt, dass Raucher länger leben 
als Nichtraucher, oder auch nicht. In einer Studie von Appleton 
und Mitarbeitern (1996) wurden zu einem bestimmten Zeitpunkt 
die Probanden als Raucher beziehungsweise als Nichtraucher klas- 
sifiziert. Zwanzig Jahre später wurde überprüft, wie viele von 
ihnen noch am Leben waren. Nimmt man alle Probanden zusam- 
men, dann lebten am Ende noch 47 Prozent der Raucher, aber nur 
noch 44 Prozent der Nichtraucher (obere Zeile der Tabelle 36). Ein 
Ergebnis, das so manchen Raucher erfreuen wird. Berücksichtigt 
man jedoch das Alter der Studienteilnehmer, indem man sie auf 
zwei Altersgruppen aufteilt, fällt die Studie ganz anders aus. In bei- 
den Gruppen ist jetzt der Anteil der lebenden Nichtraucher größer 
als bei den rauchenden Altersgenossen. Das Ergebnis der Studie 
lautet also: Raucher leben länger als Nichtraucher, es sei denn, sie 
sind jünger oder älter als 65 Jahre. 

So wie in Forschheim und Porzellanstadt sind auch hier die 
Gruppen nicht ausgewogen. Im oberen Teil der Tabelle hat man im 
Grunde genommen viele junge Raucher (alte sind selten, weil die 
meisten schon früh versterben) mit alten Nichtrauchern vermischt 
und nachgesehen wer, von beiden länger lebt. Dass da dann nicht 
unbedingt die Rauchgewohnheiten ausschlaggebend sind, liegt auf 


handelt werden, in allen beteiligten Zentren gleich ist. Fehlt die Stratifizie- 
rung nach Zentren bei einer multizentrischen Studie, ist diese wertlos, 
wenn die Resultate nicht nach Kliniken aufgeschlüsselt dargestellt werden. 
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Tabelle 36: Simpsons Paradoxon in einer Raucherstudie. Raucher leben 
länger als Nichtraucher, es sei denn, sie sind jünger oder älter als 65 
Jahre (dies ist kein Druckfehler, sondern ein Widerspruch). 


Alter zu ER 
Beginn der Verstorben Lebend Summe 
. lebend 

Studie (Jahre) 

55-74 Raucher 80 71 151 47% 
Nichtraucher 141 109 250 44 % 

55-64 Raucher 51 64 115 56% 
Nichtraucher 40 81 121 67% 

65-74 Raucher 29 7 36 20 % 
Nichtraucher 101 28 129 22% 


der Hand. Bei gleichen Startbedingungen, also bei Berücksichti- 
gung des Alters, ist das schon eher anzunehmen, und so zeigt sich 
dann auch, dass Rauchen eher dem frühen Ableben förderlich ist. 
Ein Beweis ist es allerdings nicht (siehe Kapitel «Die Ursache als 
Anlass des Grundes»). Das Trickreiche an diesem Beispiel liegt 
darin, dass sich die Ungleichverteilung erstens ganz von alleine und 
zwangsläufig ergibt und zweitens möglicherweise gerade durch 
das bedingt ist, was man untersuchen will. 

In der klinischen Forschung sind multizentrische Studien im in- 
ternationalen Maßstab heute angestrebter Standard (Charlton 
1996; siehe auch das Kapitel «Im Nebel nach Überseh», Seite 
140). Dies birgt immer die Gefahr, dass die Ergebnisse durch Zu- 
sammenfassung verfälscht werden. Die Tragweite von Simpsons 
Paradoxon ist daher kaum zu überschätzen. 
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Alles wird besser, obwohl sich 
nichts verändert 

Das Will-Rogers-Phänomen 

und stage migration 


Der FC Aufstieg ist in der Fußballliga mit Abstand der Spitzenrei- 
ter. Selbst Arnold Lederegger, der Schlechteste im Team, spielt bes- 
ser als der Beste vom SC Abseits. Demnächst wird Arnold zum SC 
Abseits wechseln. Dadurch erhöht sich die mittlere Spielerqualität 
in beiden Mannschaften! — Alles klar? Wahrscheinlich nicht. 

Noch ein Beispiel aus dem Business: Herr Schieber ist Geschäfts- 
führer in der Automobilbranche. Ihm unterstehen zwei Filialen mit 
insgesamt zehn Verkäufern, von denen drei in der Filiale Rostlaube 
arbeiten: Einer verkauft pro Woche ein Auto, der zweite zwei und 
der dritte drei. In der Filiale Coupe sind sieben Händler angestellt: 
Der erste verkauft vier Autos pro Woche, der zweite fünf, der dritte 
sechs usw., der Spitzenmann schafft beeindruckende zehn Autos 
pro Woche. Nochmals zur Übersicht: 


Mittelwert 2 


Filiale Rostlaube: 3 
6 7 89 10 Mittelwert 7 


1.2 
Filiale Coupe: 45 
Im Mittel werden also in der Filiale Rostlaube pro Verkäufer und 
Woche zwei Autos und in der Filiale Coupe sieben abgesetzt. Das 
ist dem Geschäftsinhaber zu wenig. Herr Schieber bekommt eine 
knapp bemessene Frist, die durchschnittlichen Umsatzzahlen pro 
Filiale zu verbessern. Kein Problem, sagt sich Herr Schieber und 
versetzt die vier schlechteren Verkäufer von der Filiale Coupe in die 
Filiale Rostlaube. Dann ergibt sich folgendes Bild: 


Filiale Rostlaube: 1234567 Mittelwert 4 
Filiale Coupe: 8910 Mittelwert 9 


In beiden Filialen ist die durchschnittliche Verkaufszahl pro Mitar- 
beiter um wöchentlich zwei Autos gestiegen. Insgesamt ist aber 
kein einziges Fahrzeug zusätzlich verkauft worden. 
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Mit diesem Trick lässt sich einiges manipulieren: das Durch- 
schnittsalter der Bewohner von Altenheimen, die Durchschnitts- 
intelligenz in Schulklassen, aber auch, und das ist wohl am bedeut- 
samsten, der Anteil an Wählerstimmen. Dieselbe Strategie steht 
häufig hinter Parteiquerelen bei der Neuordnung von Wahlkreisen. 
Durch geschicktes Umgruppieren lässt sich der Anteil der Stimmen 
für eine Partei in allen Kommunen anheben, ohne dass sie mehr 
Wähler bekommen hat. Dies zeigt Abbildung 52. Bei der Beliebt- 
heit von politischen Parteien bei den Wählern gibt es in Bordurien 
ein deutliches West-Ost-Gefälle. Im geographischen Westen wird 
der Kleingärtnerbund (KGB) von allen Stimmberechtigten ge- 
wählt, in der Mitte nur von jedem zweiten und im Osten von nie- 
mandem. Unser ausgedachtes Ländle ist in zwei politische Bezirke 
eingeteilt. Bei dem derzeitigen Verlauf der Bezirksgrenzen erhält 
der KGB im Bezirk Mitte-West 75 Prozent der Stimmen, im Bezirk 
Ost keine einzige, also 0 Prozent. Seit Jahren versucht der KGB im 
Parlament eine Verlegung der Bezirksgrenzen durchzuboxen. 


Bezirk Mitte-West: 75% Bezirk Ost: 0% 


07 
8 88 ® 


West Mitte Ost 
/ 
Bezirk West: 100% Bezirk Mitte-Ost: 25% 


Abbildung 52: Wie eine Partei in zwei Bezirksparlamenten ihren Wähler- 
anteil um 25 Prozentpunkte erhöht, ohne einen einzigen zusätzlichen 
Wähler zu gewinnen. Zeichenerklärung: ©: wählt den KGB (Kleingärtner- 
bund) ; ®: wählt den KGB nicht. 


Das scheint auf den ersten Blick Kleingärtnerkrämerei zu sein, auf 
den zweiten Blick ist es aber ein schlau durchdachtes Manöver. In 
den neuen politischen Grenzen hätte der KGB plötzlich 100 Pro- 
zent der Stimmen im Bezirk West, und im Bezirk Mitte-Ost käme 
er auf 25 Prozent. Das sind im Handstreich 25 Prozentpunkte 
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mehr in beiden Bezirken, ohne einen einzigen zusätzlichen Wähler 
hinzugewonnen zu haben. 

Dieser eigentlich einfache Zusammenhang hat auch in der Me- 
dizin weitreichende Konsequenzen, nämlich dann, wenn die Er- 
gebnisse einer neuen Behandlungsmethode mit denen einer so ge- 
nannten historischen Kontrollgruppe verglichen werden. Da es 
einfacher zu realisieren ist, kommt dieses Verfahren sehr viel häu- 
figer zur Anwendung als das oben beschriebene wissenschaftlich 
aussagekräftige Losverfahren. «Historisch» bedeutet, dass die 
Kontrollgruppe nicht zeitgleich, sondern vor mehreren Jahren 
behandelt wurde. Das zugrunde liegende Phänomen «stage migra- 
tion», auch Will-Rogers-Phänomen genannt‘, ist ein sehr tücki- 
scher Sonderfall der unzulässigen Gruppierung. Die Umgruppie- 
rung, die bei den Autoverkäufern und Wahlbezirken vorsätzlich 
geschah, ergibt sich bei der Krebsbehandlung ganz von selbst und 
häufig unbemerkt, wenn die Diagnostik mit der Zeit effektiver 
wird. Interessanterweise verbessern sich selbst dann die Therapie- 
ergebnisse, wenn die Behandlung die gleiche geblieben ist. Wie ist 
das möglich? 

Wie wir bereits wissen, teilen Mediziner Tumoren in Gruppen 
ein, die als T-Stadien bezeichnet und von 1 für den günstigsten bis 
4 für den ungünstigsten Fall durchnummeriert werden. Die Zuord- 
nung zu einer dieser Gruppen hängt von der Ausdehnung des 
Tumors ab, die bei schlechten diagnostischen Möglichkeiten häu- 
fig unterschätzt wird. Verbessert sich die Diagnostik, lässt sich 
die Tumorausbreitung, einschließlich kleinerer Absiedlungen oder 
Auswucherungen, die früher übersehen worden wären, genauer 
darstellen. Dies hat zur Folge, dass nun einige der prognostisch un- 


8 Will Rogers war ein bekannter amerikanischer Humorist und Philo- 
soph. Die Migration während der Wirtschaftskrise in den dreißiger Jahren 
kommentierte er mit den Worten: «Als die <Okies» Oklahoma verließen 
und nach Kalifornien zogen, haben sie dadurch den durchschnittlichen In- 
telligenzquotienten in beiden Bundesstaaten erhöht.» Da der Humor von 
Will Rogers für die Gesundheit vieler Menschen förderlich gewesen und 
dies von Medizin und Wissenschaft noch nicht gebührend gewürdigt wor- 
den sei, schlugen Feinstein und Mitarbeiter (1985) vor, das Phänomen 
nach ihm zu benennen. 
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günstigsten Tumoren des T1-Stadiums dem T2-Stadium zugeord- 
net werden. Entsprechendes geschieht an den Grenzen zwischen 
T2 und T3 sowie T3 und T4. Jede Gruppe entledigt sich ihrer 
nachteiligsten Tumoren, die jedoch in der nächsthöheren Gruppe 
die günstigeren Fälle darstellen. Dadurch optimiert sich die Pro- 
gnose in jeder Tumorgruppe — wie bei den Autoverkäufern, 
nur haben wir in diesem Fall vier Filialen. Wenn nun zwei Patien- 
tengruppen, deren Stadien mit «guten » beziehungsweise «schlech- 
ten» diagnostischen Verfahren festgestellt wurden, eine gleicher- 
maßen effektive Therapie erhalten, wird die gut untersuchte eine 
höhere Heilungsrate vorweisen. Unter der Voraussetzung, dass 
sich die Diagnostik mit der Zeit fortlaufend verfeinert, werden 
neue Therapieresultate immer günstiger erscheinen als die histori- 
scher Kontrollgruppen, auch wenn beide Therapien gleichwertig 
sind. Fortschritte in der Diagnostik können natürlich auch dazu 
führen, dass Tumoren, die man früher überhaupt nicht entdeckt 
hätte, weil sie so klein sind (und daher prognostisch günstig), der 
Behandlung zugeführt werden. Dies führt zu einer weiteren schein- 
baren Verbesserung der Prognose für T1-Tumoren. Ob man die- 
sem Phänomen in einer klinischen Studie mit historischer Kon- 
trolle aufgesessen ist, kann man zum Beispiel feststellen, indem 
man die relativen Anteile der Tumoren in den verschiedenen Sta- 
dien vergleicht. Die dann eventuell zu beobachtende relative Zu- 
nahme der ungünstigen Stadien in der neuen Patientengruppe ist 
ein Indiz für «stage migration». Dies führt zu dem Paradoxon, 
dass besonders dann Misstrauen angebracht ist, wenn das Testkol- 
lektiv mit prognostisch ungünstigeren Tumorstadien belegt ist als 
die historische Kontrolle. Ohne Kenntnis des Phänomens der 
«stage migration» würde man im Gegenteil schließen, die neue 
Therapie sei eigentlich noch besser, als die Resultate ausweisen, 
eben weil mit ihr ungünstigere Tumoren behandelt wurden.’ Die 
Heilungsergebnisse können selbst dann noch verbessert erschei- 
nen, wenn die Therapie tatsächlich ineffektiver geworden ist. 


9 Diesen Hinweis verdanken wir Herrn Prof. Dr. Jens Bahnsen von der 
Abteilung für Strahlentherapie des Universitäts-Krankenhauses Hamburg- 
Eppendorf. 
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Hurra: Gesunde gesünder als Kranke! 
Intention-to-treat-Analyse 


Wetten, dass die so genannten «Raser» auf der Autobahn wesent- 
lich sicherer fahren als die so genannten «vernünftigen» Autofah- 
rer? Von Hamburg nach Hannover sind es 150 Kilometer. Nehmen 
wir an, wir hätten über ein Jahr lang von allen Fahrzeugen, die 
diese Strecke gefahren sind, die Fahrtzeit bestimmt. Jetzt bilden wir 
zwei Gruppen. In Gruppe I kommen alle, die länger als eine Stunde 
für die Strecke benötigten und somit langsamer als 150 km/h wa- 
ren. Gruppe II enthält alle anderen, also diejenigen, die höchstens 
eine Stunde benötigten und somit schneller als 150 km/h waren. 
Jetzt die eigentliche Frage: In welcher Gruppe hat es mehr Unfälle 
gegeben? In der ersten natürlich. Und Gruppe II fährt nicht nur 
schnell, sondern sogar völlig unfallfrei. Wie kann es auch anders 
sein? Wer einen Unfall hat, schafft die Strecke ganz sicher nicht in 
weniger als einer Stunde und gelangt so zwangsläufig in die lang- 
same Gruppe. Diese Art der Gruppeneinteilung ist ganz offensicht- 
lich unsinnig. Trotzdem wird dieses Einteilungsverfahren in vielen 
klinischen Studien verwendet. Die folgenden Absätze beschreiben 
ein solches Beispiel. 

Für eine gut geplante Studie gibt es ein Protokoll, das mit pein- 
licher Genauigkeit angibt, wer wie in welchem Studienarm behan- 
delt wird. Aber egal wie gut durchdacht die Studie ist und wie dis- 
zipliniert sich die Durchführenden an das Protokoll halten, es wird 
immer Protokollverstöße geben, weil sich Patienten nicht planen 
lassen. Wenn ein Patient zum Beispiel das verordnete Medikament 
nicht oder nur gelegentlich einnimmt, liegt ein Protokollverstoß 
vor. Sehr oft werden die Daten solcher Patienten bei der Auswer- 
tung einfach nicht berücksichtigt. Man kann ja kaum erwarten, 
dass ein Patient von dem Medikament profitiert, wenn er es nicht 
einnimmt. Der Patient hat dann sozusagen gar nicht teilgenom- 
men. Dieses Vorgehen erscheint auf den ersten Blick logisch, ist 
aber ein Trugschluss, wie wir gleich sehen werden. 


In einer Studie wurden verschiedene Lipidsenker zur Langzeitbe- 
handlung koronarer Herzerkrankungen getestet (The Coronary 
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Drug Project Research Group 1980). Ihre Wirksamkeit wurde über 
die Mortalität nach fünf Jahren beurteilt. In der Patientengruppe, 
die das Medikament Clofibrat erhalten hatte, lag die Fünf-Jahres- 
Sterblichkeit bei 20,0 Prozent (Tabelle 37). In der Placebogruppe 
lag sie bei 20,9 Prozent. Dieser kleine Unterschied ist natürlich kli- 
nisch uninteressant und obendrein statistisch nicht signifikant. Die 
Autoren der Studie stellten dann jedoch fest, dass diejenigen Pa- 
tienten, die das Clofibrat regelmäßig eingenommen hatten, sehr 
wohl von dem Medikament profitierten. Ihre Sterblichkeit lag bei 
lediglich 15,0 Prozent. Diejenigen Patienten, die das Clofibrat nicht 
regelmäßig eingenommen hatten, wiesen demgegenüber eine Fünf- 
Jahres-Sterblichkeit von 24,6 Prozent auf. Das Risiko, innerhalb 
von fünf Jahren zu versterben, erwies sich für die unzuverlässigen 
Patienten um den Faktor 24,6/15,0=1,64-mal höher als für die- 
jenigen, die das Medikament regelmäßig einnahmen. Dieses Ergeb- 
nis ist nicht nur äußerst relevant, sondern auch noch hoch signi- 
fikant (p = 0,00011). Es leuchtet doch unmittelbar ein, dass das 
Clofibrat die Sterblichkeit senkt, oder? 


Tabelle 37: Fünf-Jahres-Sterblichkeit in verschiedenen Gruppen und Sub- 
gruppen (The Coronary Drug Project Research Group 1980) 


5-Jahres-Sterblichkeit 


Clofibrat Placebo 
Alle Patienten 20,0 20,9 
Regelmäßige Einnahme 15,0 15,1 
Unregelmäßige Einnahme 24,6 28,2 


Erstaunlicherweise war es aber in der Placebogruppe genauso. Die 
Patienten, die das Scheinmedikament unregelmäßig einnahmen, 
hatten eine Fünf-Jahres-Sterblichkeit von 28,2 Prozent, die zuver- 
lässigen eine von 15,1 Prozent. Das Ergebnis war somit nahezu 
identisch wie bei den zuverlässigen Clofibratschluckern. Also war 
auch das Placebo wirksam? 
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Der Verdacht liegt nahe, dass nicht das Medikament selbst der ent- 
scheidende Faktor in dieser Studie war, sondern das Verhalten der 
Patienten. Es gibt zahlreiche Gründe, weshalb ein Patient sein 
Medikament nicht oder nur unregelmäßig einnimmt. 

1. Nebenwirkungen: Jede Medaille hat zwei Seiten, und fast je- 
des wirksame Medikament hat auch Nebenwirkungen. Mit zuneh- 
menden Nebenwirkungen sinkt üblicherweise die Motivation für 
den Patienten, das Medikament zu nehmen. Im Allgemeinen sind 
die Nebenwirkungen bei verschiedenen Patienten unterschiedlich 
ausgeprägt. Wenn man bei der Analyse all diejenigen Patienten 
ausschließt, die ihr Medikament nicht vertragen haben, dann 
kommt man automatisch auch bei sehr schlecht verträglichen Arz- 
neimitteln zu dem Ergebnis, dass sie gut verträglich sind. 

2. Keine Wirkung: Mit der Einnahme des Medikaments erhofft 
sich der Patient eine bestimmte Wirkung. Wenn diese Wirkung aus- 
bleibt, dann neigt der Patient verständlicherweise dazu, das Medi- 
kament abzusetzen. Wenn man bei der Analyse all diejenigen Pa- 
tienten ausschließt, bei denen die Wirkung nicht eingetreten ist, 
dann kommt man auch bei unwirksamen Arzneimitteln zu dem 
Schluss, dass sie wirksam sind. 

3. Allgemeinzustand des Patienten: Sehr kranke Patienten kön- 
nen unter Umständen das Medikament gar nicht mehr oder nicht 
mehr regelmäßig einnehmen. Sie haben aber auch ein viel höheres 
Sterblichkeitsrisiko als Patienten, die wohlauf sind. Wenn man die 
Patienten, die gesund genug sind, das Medikament einzunehmen, 
vergleicht mit denen, die dazu nicht mehr in der Lage sind, ist das 
Ergebnis selbstverständlich: Die das Medikament einnehmen, sind 
besser dran als die anderen. Hier darf man aber nicht Ursache und 
Wirkung vertauschen. Sie nehmen das Medikament, weil sie ge- 
sünder sind - und nicht andersherum. 


Der dritte Punkt dürfte das scheinbar paradoxe Ergebnis des Co- 
ronary Drug Project erklären. Durch die Tauglichkeit, das Medika- 
ment regelmäßig einnehmen zu können, werden die Patienten ganz 
von selbst in gesunde und kranke sortiert. Und wenn man die 
Gruppen dann vergleicht, wird man feststellen, dass die Gesunden 
gesünder sind als die Kranken. Das Beispiel zeigt, dass man alle 
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Patienten, die im Rahmen einer Studie behandelt wurden, in die 
Auswertung einbeziehen muss. Diese Vorgehensweise nennt man 
«Intention-to-treat»-Analyse. In den meisten Studien wird dieses 
Prinzip allerdings nicht beherzigt, und Patienten, die nicht nach 
Protokoll behandelt wurden, werden von der Analyse ausgeschlos- 
sen («Per-protocol »-Analyse). Die Ergebnisse sind dann aber nicht 
aussagekräftig. In letzter Zeit ist uns aufgefallen, dass bei der Ver- 
öffentlichung von Studienergebnissen häufig angegeben wird, dass 
die Auswertung nach dem «Intention-to-treat»-Prinzip erfolgte. 
Der Begriff ist Mode geworden. Eine sorgfältige Betrachtung der 
Ergebnisse zeigte dann häufig, dass ein erheblicher Anteil der Pa- 
tienten von der Analyse ausgeschlossen wurde. Beispiele sind die 
niederländische Studie zur Behandlung schmerzhafter Knochenme- 
tastasen (Steenland et al. 1999) oder der Einsatz von Gabapentin bei 
Brustkrebspatientinnen (Pandya et al. 2005). 


Rotwein und tot sein 
Verzerrung durch Selektion 


Der Wein erfreue des Menschen Herz. 
Psalm 104, 15 


Berichte in der Presse über die lebensverlängernde Wirkung von in 
Maßen genossenem Wein erfreuen sich einer bemerkenswerten Po- 
pularität (Abbildung 53). Der Zeitschrift Bild der Wissenschaft zu- 
folge sterben von 1000 Abstinenzlern 20 pro Jahr. Von Personen, 
die mindestens 80 Gramm Alkohol pro Tag zu sich nehmen, ver- 
sterben lediglich 18 von 1000 pro Jahr. So richtig gut fährt man mit 
20 bis 39 Gramm Alkohol täglich. Das entspricht etwa 0,4 bis 0,8 
Liter Bier. In dieser Trink-Kategorie versterben nur 6 Personen von 
1000 pro Jahr. Mit diesen Angaben haben wir die mittlere Lebens- 
erwartung ausgerechnet. Sie beträgt für Abstinenzler 34 Jahre, für 
die 20-39-Gramm-Trinker sage und schreibe 115 Jahre. Eine alar- 
mierende Meldung für Lebensversicherer. Zusammen mit der Ent- 
hüllung, dass die Lebenserwartung auch mit der Lufttemperatur 


241 


ansteigt (siehe Kapitel «Die Ursache als Anlass des Grundes»), 
kann das für Lebenskünstler nur noch heißen: ab in die Sonne und 
Bier trinken. 


104 


Zahl der Toten insgesamt pro Jahr 
und 1000 Einwohner 


oe ET re a VEN FE Fe 
[0] <20 20-39 40-79 >79 
Alkoholkonsum in Gramm pro Tag 


Abbildung 53: Abstinenzler leben riskant. Die lebensverlängernde Wir- 
kung von 20 bis 39 Gramm Alkohol pro Tag (nach Bild der Wissenschaft 
11, Seite 66, 1997). Die auf die Koordinatenachsen verwendeten darstel- 
lerischen Mittel (vergleiche Daten auf der Streckbank) finden sich auch im 
Original. 


Zeitungsmeldungen wie die aus Bild der Wissenschaft basieren auf 
ernst gemeinten epidemiologischen Studien an Erwachsenen (ver- 
gleiche McElduff & Dobson, 1997). Das befragte Kollektiv einer 
guten Studie sollte repräsentativ sein. Dann wird es auch die fol- 
genden drei Gruppen enthalten: 1. Abstinenzler, 2. mäßig Trin- 
kende und 3. unmäßig Trinkende. Die Lebenserwartung der zwei- 
ten Gruppe wird wohl am höchsten sein, aber nicht wegen der 
wohltuenden Wirkung von Alkohol. Alkoholabhängige Personen 
haben aufgrund der schädlichen Wirkung von Alkohol eine gerin- 
gere Lebenserwartung, sie sind in der dritten Gruppe. In der ersten 
Gruppe sind die ehemaligen Alkoholiker, die jetzt trocken sind, 
und all die schwer kranken Menschen, die einfach zu krank für ein 
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Abbildung 54: Der Herr in 
der oberen Abbildung 
trinkt eindeutig zu wenig 
und hat daher eine ent- 
sprechend niedrige mitt- 
lere Lebenserwartung von 
nur 34 Jahren. Die beiden 
Herren in der Mitte trin- 
ken genau die richtige 
Menge und haben daher 
eine hohe Lebenserwar- 
tung von 115 Jahren. Der 
Herr ganz unten trinkt zu 
viel. Daher beträgt seine 
Lebenserwartung nur 38 
Jahre. 
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Glas Wein sind. Wer todkrank im Krankenhaus liegt, trinkt nicht 
regelmäßig Alkohol, hat aber ein höheres Sterblichkeitsrisiko als 
ein Gesunder. Wer täglich ein Glas Wein trinken kann, ist wahr- 
scheinlich weder schwer krank noch Alkoholiker, sondern ein ge- 
sunder Mensch mit einem bekömmlichen Lebenswandel. 

Auf demselben Trugschluss basieren Berichte, dass Herrchen 
länger lebt, wenn er zweimal täglich mit seinem Hund Gassi geht. 
Wer diese gewagte Behauptung nicht so ohne weiteres glaubt, wird 
im New England Journal of Medicine den nötigen Halt finden. 
Dort berichten Hakim und Mitarbeiter (1998) nach mehr als 
zwölfjähriger Forschungsarbeit über die lebensverlängernde Wir- 
kung von Spaziergängen bei pensionierten Nichtrauchern.” Was 
sind hier Ursache und Wirkung? Macht das Spazierengehen die 
Pensionäre fit und steigert ihre Lebenserwartung? Oder gehen die 
fitten Pensionäre mit der entsprechend höheren Lebenserwartung 
einfach öfter spazieren ? 


7 Aber auch wir selbst sind keine Unschuldsengel. So hat beispielsweise 
einer von uns in einer retrospektiven Analyse klinischer Daten mit zuneh- 
mender Strahlendosis eine signifikante Zunahme der Überlebensrate von 
Patienten mit Bronchialkarzinomen festgestellt (Int. J. Radiat. Oncol. Biol. 
Phys. 28: 583-588, 1994). Auch hier wurden Äpfel mit Birnen verglichen. 
Die Patienten hatten zunächst alle eine Gesamtdosis von 40 bzw. 50 Gray 
erhalten. Es folgte eine mehrwöchige, zum Teil sogar mehrmonatige Be- 
handlungspause. Nur wenn die Patienten nach dieser Pause keine Meta- 
stasen aufwiesen, wenn der Tumor geschrumpft war und wenn die Patien- 
ten einen guten Allgemeinzustand aufwiesen, erhielten sie noch eine zweite 
Bestrahlungsserie und damit eine höhere Strahlendosis. Die beobachtete 
Zunahme der Überlebensrate bei den höher dosiert bestrahlten Patienten 
ist somit zumindest teilweise, wenn nicht sogar ganz auf diese positive 
Auswahl zurückzuführen. Bedauerlicherweise tauchen die so gewonnenen 
Resultate auch in Lehrbüchern auf (Stuschke und Heilmann 1996). 
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Gleichheit durch blinden Zufall 
Randomisierung und Verblindung, Cluster-Randomisierung 


Eine Studie zeigt, dass es den Patienten mit Medikament deutlich 
besser geht als den Patienten, die ein Placebo bekommen haben. 
Nun möchte man natürlich aus diesem Ergebnis darauf schließen 
können, dass die Besserung tatsächlich vom Medikament verur- 
sacht wurde und von nichts anderem. Das Unterfangen ist aber nur 
dann glaubwürdig, wenn die Gruppen sich auch tatsächlich in 
nichts anderem als in der Behandlung unterscheiden. Gibt es Un- 
terschiede im Alter, im Krankheitsstadium usw., dann ist das Er- 
gebnis nicht mehr interpretierbar. Aus diesem Grund gibt man sich 
große Mühe, ausgewogene Gruppen herzustellen. Nun kann man 
sich hinstellen und Patienten gerecht verteilen, so wie früher der 
Sportlehrer die Klasse in zwei gleich gute Mannschaften aufteilte. 
Aber: War das immer gerecht? Auch Wissenschaftler sind nur 
Menschen und haben ihre eigenen Überzeugungen. Diese dürfen 
nicht in die Studie einfließen. Ein Arzt, der eine von ihm entwi- 
ckelte Behandlungsmethode mit einer konventionellen vergleichen 
will, könnte bewusst oder unbewusst Patienten mit besseren Hei- 
lungschancen vorzugsweise seiner eigenen und die schwierigeren 
Fälle dem Standardverfahren zuordnen. Um genau dieses zu ver- 
hindern, wird «randomisiert». Der Patient wird nach einem Zu- 
fallsverfahren der einen oder der anderen Behandlungsgruppe zu- 
geordnet. Das kann so etwas Einfaches sein wie ein Münzwurf, 
Würfeln oder ein Los ziehen. Das Randomisieren ist die letzte 
Maßnahme bei der Aufnahme eines Patienten in eine Studie. Der 
aufnehmende Arzt weiß dann nicht, in welche Gruppe der Patient 
gelangen wird, und kann nicht wie beschrieben manipulieren. 


Es gibt strenge gesetzliche Regelungen, die vorschreiben, wann ein 
solches Losverfahren durchgeführt werden darf. Zunächst einmal 
muss wirklich unklar sein, welche der beiden Behandlungen besser 
ist. Anderenfalls wäre eine derartige Untersuchung aus ethischen 
Gründen bedenklich. Eine weitere Voraussetzung ist selbstver- 
ständlich die Zustimmung des Patienten, der ein ausführliches und 
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dokumentiertes Aufklärungsgespräch mit dem Arzt vorausgehen 
muss. Ohne eine solche Zustimmung darf niemand einem Losver- 
fahren unterworfen werden. Sie brauchen also heutzutage keine 
Angst zu haben, dass Sie als Patient an klinischen Studien teilneh- 
men, ohne davon zu erfahren. Die gesetzlichen Bestimmungen über 
klinische Studien sind derart streng, dass sie die Arbeit forschender 
Ärzte zum Teil sehr erschweren oder gar verhindern. Das kann von 
Fall zu Fall sinnvoll sein, aber ohne klinische Tests gibt es keinen 
medizinischen Fortschritt. Auch diese Medaille hat zwei Seiten. 

Randomisieren ist nicht einfach in der Durchführung, aber be- 
deutsam für die Interpretation von Studienergebnissen. Deshalb 
muss in einer Publikation die Methode der Randomisierung nach- 
vollziehbar berichtet werden*. Bedauerlicherweise ist dies nur 
selten der Fall. 


8 Manchmal werden nicht Individuen, sondern Gruppen randomisiert. 
Das können beispielsweise alle Einwohner eines Dorfes, alle Patienten 
einer Praxis oder eines Krankenhauses usw. sein. Diese nicht-individuelle 
Randomisierung nennt man Cluster-Randomisierung. Das Randomisieren 
ganzer Cluster ist manchmal unvermeidlich. In einer Studie, in der die Wir- 
kung von Trinkwasserbeimengungen untersucht wird, kann man nur 
ganze Wasserwerke mit den daran hängenden Menschen randomisieren. 
Die Cluster-Randomisierung bringt zahlreiche methodische und ethische 
Probleme mit sich: 

- Die Unabhängigkeit der beobachteten Ereignisse ist nicht gegeben. Dies 
ist aber eine entscheidende Vorbedingung für die meisten statistischen 
Verfahren. 

- Die Entblindung eines einzigen Patienten entblindet ein ganzes Cluster 
(zur Verblindung siehe dort). 

- Der behandelnde Arzt weiß, in welcher Gruppe er und damit auch sein 
Patient ist. 

- Im Allgemeinen werden nur Patienten der experimentellen Gruppe um 
ihre Zustimmung gebeten. Dadurch kann Selektion entstehen. 

— Patienten wechseln die Praxis, um die Behandlung ihrer Wahl zu erhal- 
ten. 

Aus den genannten Gründen sollte die Cluster-Randomisierung nach 

Möglichkeit vermieden werden. Erschreckenderweise werden in vielen 

cluster-randomisierten Studien entsprechende spezielle Aspekte bei Pla- 

nung und Auswertung nicht berücksichtigt, insbesondere dass man we- 
sentlich mehr Patienten benötigt als bei individueller Randomisierung. 
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Durch die Randomisierung wird erreicht, dass die zu vergleichen- 
den Patientengruppen möglichst ausgewogen sind. Diese mühsam 
erkämpfte Ausgewogenheit ist gefährdet, wenn der Patient weiß, 
dass er nicht die neue «viel versprechende», sondern «nur» die 
Standardbehandlung erhält. Deshalb und um bewusste oder unbe- 
wusste Manipulationen auszuschließen, wird noch ein weiterer 
Kunstgriff angewandt, die so genannte Verblindung. Die Idee des 
Verblindens ist keineswegs neu. Die römische Göttin der Gerech- 
tigkeit Justitia hat die Augen verbunden, damit sie ohne Ansehen 
der Person Recht sprechen kann. 


In einer Blindstudie erfährt der Patient daher nicht, zu welcher 
Gruppe er gehört, und in einer Doppelblindstudie ist auch der Arzt 
nicht darüber informiert: Die Behandlung ist verschlüsselt und nur 
einer dritten Person bekannt. Dies trägt dazu bei, dass der Arzt bei 
der Beurteilung des therapeutischen Effekts und der Nebenwirkun- 
gen unbefangener ist. Trotzdem kann es passieren, dass die Ver- 
blindung durchschaut wird, wenn beispielsweise bestimmte Ne- 
benwirkungen im Allgemeinen nur bei einer der zu vergleichenden 
Therapien auftreten. 

Es ist nicht immer möglich zu verblinden. Eine Studie, in der 
wahlweise Strahlentherapie oder Operation zur Behandlung eines 
Mammakarzinoms angeboten werden, zeigt das deutlich. Eine 
Verblindung kann auch durch spezifische Nebenwirkungen «auf- 
fliegen», natürlich auch durch besonders deutliche Wirkung. Die 
Verblindung sollte in einer Publikation detailliert beschrieben wer- 
den, damit man einschätzen kann, wie effizient sie war. 

Wichtig wäre es auch, den Statistiker, der die Ergebnisse auswer- 
tet, zu verblinden. Denn auch bei der Auswertung sind viele be- 
wusste und unbewusste Manipulationen möglich. Eigentlich wäre 
es am sichersten, wenn die Verblindung erst aufgehoben wird, 
wenn die Studie abgeschlossen, komplett ausgewertet und bereits 
veröffentlicht ist. Eine solche Studie wäre spannend bis zum letzten 
Augenblick. 
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Warten statt starten 
Surrogatmarker als Endpunkte 


In den letzten Jahrzehnten haben die Entschädigungssummen, die 
Versicherungsgesellschaften für Sturmschäden auszahlen mussten, 
rapide zugenommen. Dies wird immer wieder als klares Anzeichen 
für eine bereits stattfindende Klimakatastrophe angesehen. Dabei 
wird stillschweigend vorausgesetzt, dass die Entschädigungssum- 
men mit der Heftigkeit und Häufigkeit von Stürmen korrelieren. 
Statt Letzteres aber tatsächlich zu ermitteln, werden die Entschädi- 
gungssummen als Ersatz für das benutzt, was man eigentlich wirk- 
lich wissen will. Man nennt dies einen «Surrogat-Endpunkt». Die 
Entschädigungssummen könnten aber auch aufgrund anderer Ur- 
sachen steigen. Eine zunehmende Besiedlung risikoreicher Küsten, 
eine aufwendigere Bebauung, ein größerer Anteil an versicherten 
Gebäuden und die Inflation führen jeweils auch zu einem Anstieg 
der versicherten Schäden. Sind die gestiegenen Entschädigungs- 
summen dann wirklich ein stichhaltiger Beleg für eine Klimaände- 
rung? 


Klinische Studien sind mühsam. Sie machen noch mehr Arbeit und 
sind umso teurer, je länger es dauert, bis der gewünschte Effekt 
einer Behandlung eintritt. Besonders langwierig sind Studien mit 
Medikamenten oder über Lebensweisen, die zu einer Veränderung 
der Lebenserwartung führen sollen. Es ist daher nahe liegend, so- 
bald man den Erkrankungsmechanismus glaubt verstanden zu ha- 
ben, nach «Abkürzungen » zu suchen. 

So vermutet man, dass Menschen mit Herzrhythmusstörungen 
(ventrikuläre Extrasystolen) ein höheres Risiko haben, an Herzver- 
sagen zu sterben, als Personen desselben Alters ohne Herzrhyth- 
musstörungen. Wenn Herzrhythmusstörungen tatsächlich der 
Grund für das frühere Ableben sind, liegt der Versuch nahe, diese 
Störungen medikamentös zu beseitigen, in der Hoffnung, damit 
auch das Leben der so behandelten Patienten zu verlängern. Dies 
wurde jahrelang praktiziert, bis im Rahmen der so genannten 
CAST-Studie («Cardiac Arrhythmia Suppression Trial») überprüft 
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wurde, ob die Patienten auch tatsächlich länger leben. Die Patienten 
wurden entweder mit einem von drei Medikamenten oder mit Pla- 
cebo behandelt (Echt et al. 1991). Bei allen drei Präparaten wurde 
eine deutliche Verringerung der Herzrhythmusstörungen beobach- 
tet. Bedauerlicherweise führte die erfolgreiche Behebung der 
Rhythmusstörungen aber nicht zu einer höheren, sondern bei zwei 
Medikamenten ganz im Gegenteil zu einer geringeren Lebenserwar- 
tung. Die Probanden der Placebogruppe hatten die höchste Lebens- 
erwartung und das geringste Risiko, an Herzversagen zu sterben. 
Was aber nützt die Behebung von Herzrhythmusstörungen, wenn 
dadurch die Lebenserwartung sinkt? (Furberg & Furberg 1994) 


Der Erfolg einer Behandlung wird mit Hilfe so genannter End- 
punkte bestimmt. Ein Endpunkt kann das Eintreten einer Wir- 
kung, einer Nebenwirkung oder das Versterben des Probanden 
sein. Je früher die Wirkung, und je später Nebenwirkung oder Tod 
eintreten, umso besser. Da es Jahre oder auch Jahrzehnte dauern 
kann, bis ein Endpunkt, insbesondere der Tod, eintritt, sucht man 
nach Surrogat-Endpunkten, die man erheblich früher messen 
kann. Die Beseitigung der Herzrhythmusstörung ist ein bequemes 
Surrogat für den eigentlich interessierenden Endpunkt, das Überle- 
ben. Ein Surrogat-Endpunkt ist nur sinnvoll, wenn er kausal mit 
dem eigentlichen Endpunkt zusammenhängt. Wenn Herzrhyth- 
musstörungen die Ursache einer geringen Lebenserwartung sind, 
macht es Sinn, sie zu vermeiden. Ist die geringere Lebenserwartung 
aber nur die Folge einer anderen Ursache, die nebenbei auch noch 
Herzrhythmusstörungen bewirkt, dann wird die Angelegenheit 
doppeldeutig. Beseitigt das Medikament die gemeinsame Ursache, 
dann sind Herzrhythmusstörungen ein geeigneter Surrogat-End- 
punkt. Beseitigt das Medikament aber lediglich die Herzrhythmus- 
störungen, aber nicht die gemeinsame Ursache, dann ist der Surro- 
gat-Endpunkt ungeeignet. 


Osteoporose ist eine Erkrankung, die zu häufigen Knochenbrüchen 
führt und an der vor allem ältere Frauen leiden. In Studien wurde 
eine Korrelation zwischen der Knochendichte und der Häufigkeit 
von Knochenbrüchen nachgewiesen. Eine geringe Knochendichte 
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führt zu einer geringeren Belastbarkeit und damit zu einem erhöh- 
ten Risiko für Knochenbrüche. Das klingt plausibel. Was liegt da 
näher, als die Knochendichte zu erhöhen? Einer Studie der Mayo- 
Klinik zufolge (Riggs et al. 1990) kann dies effektiv mit Hilfe von 
Fluor in Form von Natriumfluorid erreicht werden. Kurzfristig war 
man über dieses Ergebnis sehr erfreut, langfristig traten aber trotz 
Erhöhung der Knochendichte wesentlich mehr Brüche in der fluor- 
behandelten Gruppe auf als in der Placebo-Gruppe. Der anfangs so 
plausible Zusammenhang war offenbar falsch. 

Es gibt zahlreiche Beispiele für plausible, aber untaugliche Sur- 
rogat-Endpunkte in der Medizin (Mühlhauser & Berger 1996). In 
Studien sollte daher auf diese Arbeitserleichterung verzichtet wer- 
den, es sei denn, das Surrogat hängt ohne Zweifel kausal mit dem 
relevanten Endpunkt zusammen. 


Viel Blech ist noch lange kein Auto 
Der so genannte impact factor 


Unsere Leistungsgesellschaft 

ist nicht eine Gesellschaft, 

in der nur Leistung gilt, 

sondern eine, welche bestimmt, 

was Leistung ist und wer sie leisten darf. 
Gerd Uhlenbruck 


Die Leistung eines Wissenschaftlers wird in Veröffentlichungen 
pro Jahr gemessen, so wie die Produktivität einer Milchkuh in Li- 
tern pro Tag. Wie bei der Milch gibt es auch bei den Veröffent- 
lichungen qualitative Unterschiede, nur dass sich in der Wissen- 
schaft keiner darum schert. 

In zahlreichen Situationen werden wissenschaftliche Leistungen 
beurteilt, beispielsweise bei der Auswahl von Bewerbern auf eine 
freie Stelle an einem Forschungsinstitut, bei der Verteilung der im- 
mer knapper werdenden Forschungsgelder innerhalb einer Fakul- 
tät oder unter den Antragstellern bei der Deutschen Forschungsge- 
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meinschaft (DFG). Am einfachsten kann man die wissenschaftliche 
Leistung eines Bewerbers oder einer Institution an den entspre- 
chenden wissenschaftlichen Veröffentlichungen beurteilen. Die 
Lektüre von Fachliteratur ist anpruchsvoll und vor allem zeit- 
raubend. Hinzu kommt, dass oftmals Personen entscheiden müs- 
sen, die sich auf dem speziellen Forschungsgebiet nicht genug aus- 
kennen, um die Qualität der eingereichten Ergebnisse wirklich 
zuverlässig beurteilen zu können. Deshalb wird häufig einfach die 
Gesamtzahl der Veröffentlichungen als Qualitätskriterium genom- 
men. Dies ist sozusagen der Surrogatmarker für die wissenschaft- 
liche Leistung. Einfach zu messen, nachzuprüfen und weiterzu- 
erzählen. Auch die Erstellung einer Rangliste nach diesem Krite- 
rium ist nicht schwierig. 

Da der Anzahl wesentlich größere Bedeutung beigemessen wird 
als dem Inhalt, werden die Ergebnisse einer Untersuchung in immer 
kleineren Portionen veröffentlicht. In Fachkreisen kursiert daher 
der Begriff der «kleinsten publizierbaren Einheit» (least publish- 
able unit oder LPU). Wer seine Ergebnisse in einem großen umfas- 
senden Artikel darstellt, knickt die eigene Karriere und hilft unge- 
wollt potenziellen Konkurrenten, die aus dem gleichen Material 
einen ganzen Strauß von Publikationen anfertigen. Man ahnt be- 
reits, dass die Anzahl der Publikationen kein besonders gutes Kri- 
terium für die Bewertung wissenschaftlicher Leistungen sein kann 
und auch nicht gerade dazu motiviert, Qualität abzuliefern. 


Tragen Sie Ihren Anzug oder Ihr Kostüm nur einmal? Eben! Auch 
Ergebnisse sind teuer und viel zu schade, um sich nur einmal damit 
zu schmücken. Mehrfache Veröffentlichungen ein und derselben 
Daten gehören folglich inzwischen zur Routine. Zunächst werden 
die Resultate als Abstract im Tagungsband eines nationalen Kon- 
gresses veröffentlicht, dann in einer internationalen Fachzeit- 
schrift, dann in den Proceedings einer internationalen Tagung und 
schließlich leicht abgewandelt in einer deutschen Fachzeitschrift. 
Die Daten klinischer Studien werden in «vorläufigen Berichten » 
(preliminary reports) und «Zwischenberichten » (interim reports) 
recycelt. Selbstverständlich veröffentlicht man jedes Mal nur einen 
bestimmten Teilaspekt, beispielsweise bei der Strahlenbehandlung 
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von Tumoren zunächst die akuten Nebenwirkungen, dann - natür- 
lich in einer separaten Veröffentlichung - die Tumorreaktion, dann 
die späten Nebenwirkungen. Es ist sehr mühsam geworden, wirk- 
lich alle veröffentlichten Ergebnisse einer Studie zusammenzube- 
kommen. 

Diese Vorgehensweise ist den Entscheidungsträgern natürlich 
nicht unbekannt. Schließlich praktizieren die Mitglieder von Beru- 
fungskommissionen oder Haushaltsausschüssen und die Gutachter 
der Deutschen Forschungsgemeinschaft das Verfahren im All- 
gemeinen selbst. Um der Flut der Publikationen von Bewerbern 
und Antragstellern möglichst einfach Herr zu werden, werden 
inzwischen häufig auch raffiniertere Bewertungsverfahren ein- 
gesetzt. Dennoch bleibt die Anzahl der Veröffentlichungen ein 
entscheidendes Kriterium. So werden Publikationen in internatio- 
nalen Fachzeitschriften zunehmend gesondert bewertet. Immer 
häufiger kommt es vor, dass sich Gutachter die - aus durchschau- 
baren Gründen meist sehr lange - Publikationsliste genau durch- 
lesen. Hoch angesehene Zeitschriften wie Nature, Science, Lancet 
oder New England Journal of Medicine werden als zuverlässiges 
Indiz für Qualität gehandelt. Ein längerer Artikel im international 
hoch angesehenen Wissenschaftsmagazin Nature ist natürlich viel 
gewichtiger als eine kurze Notiz in einem Kongressband der nord- 
deutschen Sektion einer nationalen Fachgesellschaft. 


Ein wesentlich differenzierteres, aber auch sehr viel aufwendigeres 
Verfahren zur Beurteilung der wissenschaftlichen Produktivität 
eines Wissenschaftlers ist die Anzahl der Zitierungen seiner Publi- 
kationen in der Fachliteratur. Diese Zahl kann aus einem Verzeich- 
nis, dem so genannten «Science Citation Index», ermittelt werden. 
Allerdings ist die Häufigkeit von Zitierungen nicht unbedingt ein 
positives Qualitätsmerkmal. Ein Artikel, der als abschreckendes 
Beispiel zitiert wird, zählt genauso wie ein Artikel, der als bahnbre- 
chend erwähnt wird. Ebenso könnte man beim Fußball die roten 
und gelben Karten, die eine Mannschaft gesehen hat, zu den Toren 
dazuaddieren. 

Die Anzahl der persönlichen Zitierungen kann recht einfach er- 
höht werden: 
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- Möglichst oft Erstautor sein (dem Nachwuchs keine Chance ge- 
ben) 

— Seilschaften bilden («Zitierst du mich, zitier ich dich») 

- Sich selbst möglichst oft zitieren (wissenschaftliche Selbstbefrie- 
digung) 

- Als Gutachter auf der Zitierung eigener Arbeiten bestehen 
(Machtmissbrauch) 


Die individuelle Anzahl der Zitate scheint also auch nicht die 
ideale Lösung zu sein. Eine andere Herangehensweise verwendet 
den so genannten impact factor. Mit diesem Faktor werden die 
Fachzeitschriften bewertet. Der impact factor entspricht der durch- 
schnittlichen Anzahl der Zitate, die ein Artikel dieser Zeitschrift 
innerhalb der ersten beiden Kalenderjahre nach seinem Erscheinen 
erzielt. Der impact factor hat in den letzten Jahren in der Wissen- 
schaftspolitik eine große Bedeutung erlangt. Es ist zunächst auch 
sehr nahe liegend, zu vermuten, dass sich die Qualität einer Zeit- 
schrift darin zeigt, dass sie häufig zitiert wird, und zwar bald. Aus 
der so ermittelten Qualität der Zeitschrift wird dann auf die Qua- 
lität der Artikel geschlossen, die in der Zeitschrift erschienen sind. 
Damit wird man sicherlich nicht allen Arbeiten gerecht, da sie sich 
sehr wohl qualitativ unterscheiden können, auch wenn sie in der- 
selben Zeitschrift publiziert sind. Der beachtliche impact factor 
einiger kleiner Zeitschriften kommt manchmal nur durch einen 
einzigen oder einige wenige Artikel zustande und ist daher sehr 
leicht manipulierbar (vergleiche Beck-Bornholdt & Dubben 
2000a, b, Raabe et al. 2000, Dubben & Beck-Bornholdt 2000, 
Dubben et al. 2001). 

Da der impact factor nur aus Zitaten bestimmt wird, die in den 
beiden auf die Veröffentlichung folgenden Kalenderjahren entste- 
hen, werden Arbeitstechniken begünstigt, die innerhalb kurzer 
Zeit zu Ergebnissen führen. Wenn ich heute einen Artikel lese, dar- 
aus etwas lerne und Nutzen für die Planung meines nächsten Ex- 
periments daraus ziehe, so werde ich den Artikel selbstverständlich 
zitieren, wenn ich später meine Ergebnisse veröffentliche. So ge- 
hört sich das jedenfalls. In manchen Arbeitsgebieten dauern die 
Experimente nur wenige Stunden. Man kann sie dann in den 
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nächsten Tagen mehrfach wiederholen und hat nach zwei Wochen 
genug Ergebnisse für eine Veröffentlichung. Wenn man bei der 
Auswertung der Daten und beim Schreiben nicht allzu lange her- 
umtrödelt, kann man die Arbeit einen oder zwei Monate später bei 
einer Zeitschrift einreichen. Die Entscheidung über die Annahme 
des Manuskripts fällt innerhalb von typischerweise drei Monaten. 
Meistens muss man noch auf Wunsch der Gutachter die eine oder 
andere Änderung an der Veröffentlichung vornehmen. Dies nimmt 
kaum mehr als zwei Wochen in Anspruch. Nach einem weiteren 
Monat ist die Arbeit dann endgültig zur Veröffentlichung ange- 
nommen. Nach weiteren drei bis vier Monaten erhält man die 
Druckfahne, und dann dauert es nochmals etwa zwei bis sechs Mo- 
nate bis zum Erscheinen des Artikels. Von der Beendigung des Ex- 
periments bis zum Erscheinen des Artikels verstreicht also etwa ein 
Jahr. Es muss nicht immer so lange dauern, aber es ist ein vernünf- 
tiger Mittelwert für viele Arbeitsgebiete. Wenn die einzelnen Expe- 
rimente schnell vonstatten gehen, kann ich den Artikel, von dem 
ich bei der Planung meines Experiments profitiert habe, ein Jahr 
nach seinem Erscheinen zitieren. Damit schlägt sich der Nutzen, 
den ich aus dem Artikel gezogen habe, auch im impact factor der 
Zeitschrift nieder. 


Wenn die Durchführung einzelner Experimente jedoch länger dau- 
ert, vielleicht zwei oder drei Monate, wird die Zeit bereits knapp. 
Die Experimente müssen mehrfach wiederholt werden. Bis die Er- 
gebnisse für die Veröffentlichung vorliegen, vergeht mindestens ein 
Jahr. Wenn die Arbeit im Oktober, November oder Dezember er- 
schienen ist, dann wird mein Zitat nach eineinviertel Jahren schon 
nicht mehr zum impact factor der Zeitschrift beitragen. Wenn die 
Experimente gar noch länger dauern, beispielsweise ein halbes 
Jahr, dann dauern allein die Versuche schon zwei Jahre. Und ein 
Zitat der für mich so nützlichen Arbeit nach mehr als zwei Jahren 
wird sich nicht im impact factor der Zeitschrift niederschlagen. 
Klinische Studien, die im Allgemeinen mehrere Jahre benötigen, um 
eine ausreichende Patientenzahl zusammenzubekommen, haben 
bei diesen Spielregeln überhaupt keine Chance. 

Natürlich gelangen Zitate auch auf andere Weise in eine Veröf- 
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fentlichung. Es ist üblich, kurz vor Fertigstellung einer Arbeit die 
Literatur nochmals gründlich auf aktuelle Beiträge zum Thema zu 
durchforsten. Neuere Arbeiten können dann in der Diskussion ge- 
würdigt werden. Diese Möglichkeiten stehen für «langsame Tech- 
niken» genauso offen wie für schnelle. Dennoch sind die langsa- 
men Techniken insgesamt benachteiligt. 


Arbeitsgebiete mit langwierigen Experimenten sind also dreifach 
benachteiligt. Erstens schafft man pro Jahr nicht so viele Experi- 
mente wie die Kollegen in den Fachrichtungen mit schnellen Tech- 
niken, zweitens ist der impact factor der Fachzeitschriften des Ar- 
beitsgebiets niedriger, und drittens ist auch der Herausgeber einer 
wissenschaftlichen Zeitschrift an einem hohen impact factor seines 
Blattes interessiert und wird die schnellen Fachrichtungen bevorzu- 
gen. 

Der impact factor führt offenbar zu einer nicht wissenschaftlich 
begründeten Verschiebung von Forschungsaktivitäten, weg von 
zeitaufwendigen hin zu schnell beantwortbaren Fragen, damit aber 
auch weg von umsichtiger hin zu oberflächlicher Arbeitsweise. Alle 
in diesem Abschnitt besprochenen Bewertungskriterien sind oben- 
drein Surrogat-Endpunkte und nicht höher als diese zu bewerten. 


Mit Sicherheit daneben 
Objektivität der Wissenschaft und 
subjektive Interessen - Falsifizierbarkeit 


Insensibly one begins to twist facts to suit theories, 
instead of theories to suit facts. 
Sherlock Holmes 


Für unsere Vorstellungen von der Welt wünschen wir uns Bestäti- 
gung. Dieser Wunsch lässt uns nicht nur selektiv wahrnehmen und 
unbewusst manipulieren, sondern bewirkt, dass auch in der For- 
schung Experimente oder Studien auf Bestätigung und nicht auf 
die Herausforderung oder gar Falsifizierung unserer Auffassungen 
hin angelegt werden. 

Selektive Wahrnehmung hat nicht nur im täglichen Leben, son- 
dern auch im wissenschaftlichen Alltag einen nicht zu unterschät- 
zenden Einfluss, sei es beim Experimentieren oder beim Auffinden 
und Lesen von Fachliteratur. Paul Watzlawick (1976), Psychologe 
und Kommunikationsforscher, stellt sogar die provokative These 
auf, «daß das wacklige Gerüst unserer Alltagsauffassungen der 
Wirklichkeit im eigentlichen Sinne wahnhaft ist und daß wir fort- 
während mit seinem Flicken und Abstützen beschäftigt sind - selbst 
auf die erhebliche Gefahr hin, Tatsachen verdrehen zu müssen, 
damit sie unserer Wirklichkeitsauffassung nicht widersprechen, 
statt umgekehrt unsere Weltschau den unleugbaren Gegebenheiten 
anzupassen». 

Zur Illustration dieser Behauptung beschreibt Watzlawick eine 
ganze Reihe von Experimenten, bei denen Versuchspersonen in Si- 
tuationen gebracht werden, die keinerlei innere Ordnung aufwei- 
sen. Dieser Umstand wird den Probanden aber verheimlicht. Sie 
glauben fälschlicherweise, dass eine direkte und erfassbare Bezie- 
hung besteht zwischen ihrem Handeln und dem, was darauf folgt. 
Ihre Suche nach erklärbaren Zusammenhängen führt zu sehr inter- 
essanten und zum Teil amüsanten Wirklichkeitsauffassungen und 
Verhaltensformen. 
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Das Orakel von Eliphi 
Beharrungsvermögen falscher Vorstellungen 


Wenn du keine Fehler machst, 
versuchst du es nicht wirklich. 
Coleman Hawkins 


Irrige Ansichten sind außerordentlich widerstandsfähig. In unserer 
Vorlesung gelingt es uns regelmäßig, die Teilnehmer in die Irre zu 
führen und ein sehr beharrliches Verhalten zu provozieren. Dazu 
spielen wir folgendes Spiel!: Jeder Teilnehmer zieht ein Los, auf 
dem sich jeweils vier Zahlen befinden, die nach einer bestimmten 
Regel zusammengestellt wurden (zum Beispiel 2-4-8-16). Die Teil- 
nehmer sollen, jeder für sich, das Schema herausfinden, das ihrer 
Zahlenabfolge zugrunde liegt, indem sie diese fortsetzen und der 
Spielleiter ihnen mitteilt, ob die von ihnen genannte neue Zahl der 
Regel entspricht. Liegen sie einmal falsch, dann hat dies keine 
Nachteile. Sie dürfen so lange probieren, bis sie davon überzeugt 
sind, die Aufgabe gelöst zu haben. 

Es liegt nahe, die obigen Zahlen mit 32-64-128-256-512- 
1024-2048 fortzuführen, weil man schnell die Vorschrift «Ver- 
dopple die letzte Zahl» vermutet. Wenn dann auch noch der Spiel- 
leiter jede einzelne Nennung als richtig bestätigt, ist man sich bald 
sicher, das richtige Schema gefunden zu haben?. Die Lösung «Ver- 


1 Das Spiel ist eine Abwandlung eines Tests, der von dem experimentellen 
Psychologen P. C. Wason entwickelt wurde. Wir haben es bei Randow 
(1994) gefunden. 

2 Selbst nach 79facher Bestätigung kann man sich noch irren. Auf der Su- 
che nach einer mathematischen Formel für Primzahlen entstand der Ansatz 
n?-79n + 1601 = Primzahl. 

Diese Formel erzeugt für alle natürlichen Zahlen von 1 bis 79 Primzahlen. 
Große Enttäuschung: Sie versagt bei n = 80 (Barrow 1994). Die aus n = 80 

folgende vermeintliche Primzahl 1681 ist durch 41 teilbar. 

Für die mathematisch Interessierten sei an dieser Stelle auf einen Artikel 
von Stewart (1995) hingewiesen, in dem dargelegt wird, dass Vermutun- 
gen, die auf eine begrenzte Folge kleiner Zahlen gegründet sind, in die Irre 
führen können. Stewart zeigt, dass eigentlich jede begrenzte Folge zum Bei- 
spiel mit der Zahl 19 fortgesetzt werden kann. 
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dopple die Zahl» ist zwar nicht falsch, aber viel komplizierter als 
die tatsächliche Aufbauregel, die einfach nur « Jede Zahl ist größer 
als die vorherige» lautet. In unserer Vorlesung zogen die Teilneh- 
mer es vor, nach dem von ihnen bereits gefundenen vermeintlichen 
Prinzip zu verfahren. Sie schlugen dem Spielleiter nur Zahlen vor, 
von denen sie meinten, sie seien richtig. Lediglich einer hat bisher 
versucht, seine Hypothese wirklich zu überprüfen, indem er nach 
32-64-128 anstelle von 256 die Zahl 201 angab. Die anderen Teil- 
nehmer blieben bei der einmal «entdeckten » Regel «Verdopple die 
letzte Zahl», um jedes Mal eine Bestätigung einzuheimsen. 

Bei unseren mit Rechenaufgaben vertrauten Physikstudenten 
waren etwas kompliziertere Folgen wie etwa 2"-1 notwendig, um 
ihren Ehrgeiz zu wecken. 

Wenn wir uns in schwindelnder Höhe an ein Geländer lehnen 
müssen, prüfen wir, ob es auch hält, selbst wenn es stabil aussieht. 
Mit unseren geliebten Ideen und Hypothesen gehen wir anders um. 
Wir pflegen sie, aber wir prüfen sie nicht. Zu diesem Thema 
schreibt Gero von Randow (1994): «Wir stellen eine Hypothese 
auf und testen sie - das ist der beste Weg, um zu Erkenntnissen über 
die Außenwelt zu gelangen. «Testen» muß aber heißen: überprüfen, 
auf die Probe stellen, herausfordern. Materialprüfer belasten ihre 
Proben mit schweren Gewichten, pressen sie zusammen, ziehen sie 
auseinander, werfen sie mal ins Wasser, mal ins Feuer und gießen 
Säure darüber. Es ist leider nicht unsere Art, mit Hypothesen ähn- 
lich rigide zu verfahren. Gäbe es keine Meinungsverschiedenheiten 
mit anderen Menschen, würde jeder seine eigenen Hypothesen hät- 
scheln. In jenen Überzeugungssystemen, die nicht jede Hypothese 
zum Beschuß freigeben, findet genau dies statt: Es gibt großartigen 
Meinungsstreit um Interpretationen, nicht jedoch um die wichtigs- 
ten, nämlich grundlegenden Theorien (die «Hypothesen» zu nennen 
bereits als Ketzertum oder Revisionismus gilt).» Leider trifft Letz- 
teres häufig auch auf die medizinische Wissenschaft zu. 

Jetzt dürfen Sie wieder selbst spielen°: Vor Ihnen liegen vier Kar- 
ten. Jede Karte hat auf einer Seite einen Buchstaben und auf der an- 


3 Das Spiel stammt ebenfalls von P. C. Wason. Wir haben es bei Randow 
(1994) gefunden. 
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sn 
7 
FÜHL DEM WAHLV NICHT AUR DEIV ZAHN: 


DAS ORAKEL Or ELPHI 


ELPHÜ HAT CitvErv TEDDYBÄREN. WEIMIV SIE IHIV ERAGT: 
WIE HEISSE IHR", UVD iHIV DAIMIV LIEBEVOLL DRÜCKT, 
DANIV BRUMMIT ER: ELPHIT 
® 
SD GESCHAH ES TAUSENMD/MAL UND ELPHÜ WAR EROH, 
DErVN IHR TEDDYBÄR ERKANMIE SIE NEDES MAL. 

& 

Von DIESEM WUNDER ERFUHR DER PRüvZ KLAUS-DIETER. 
ER REISTE SOKORT ZU ELPHI, FRAGTE DEIV BÄREN: 

"Wie HEISSE ÄCHR" Uivd DRÜCKTE iHv VORSCHRILTSMÄSSIG. 
VID DER TEDDY ARUMMITE: "ELPHIT 
& 

NUM, DA WAR DAS WUNDER DAHüV, Und ELPHi WAR SAUER 
AUF DEI PRÜVZEN. 

DIE MORAL VON DER GESCHICHT: 

FALSITIZIER KEIN ORAKEL ViHT. 


Abbildung 55: Das Orakel von Elphi. Die Widerlegung von falschen, 


aber lieb gewonnenen Theorien ist unerwünscht. 
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deren Seite eine Zahl. Vorder- und Rückseite der Karten sind nicht 
unterscheidbar. Die vier Karten zeigen mit den Zeichen 


nach oben. Unsere Hypothese lautet: «Wenn sich ein Vokal auf der 
einen Seite befindet, dann steht auf der anderen Seite eine gerade 
Zahl.» Sie sollen diese Hypothese überprüfen und dürfen dazu 
zwei Karten umdrehen. Welche sehen Sie sich an? Bitte tragen Sie 
Ihre Entscheidung in die beiden Kästchen ein. 


a) G 


Die Lösung finden Sie im Anhang am Ende des Buches. Dort wer- 
den auch der Kontext und die Bedeutung des Spiels erläutert. 


Ratte beim Tango 
Vermeintliche Gesetzmäßigkeiten im Chaos 


Zweifle nicht an dem, der sagt, 

er habe Angst, 

aber habe Angst vor dem, der sagt, 
er habe keine Zweifel. 

Erich Fried 


Die Unberechenbarkeit der Welt und des Lebens ist viel besser zu 
ertragen, wenn man sie leugnet oder zumindest sich selbst davon 
überzeugt, dass man Einfluss nehmen kann, und sei es durch ma- 
gische Handlungen. Diese als Aberglaube bekannte menschliche 
Schwäche kann auch Laborratten und anderen Tieren mit ähnlich 
hohem geistigem Niveau nahe gebracht werden. 
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Wie Watzlawick in seinem oben erwähnten Buch beschreibt, be- 
steht die dazu notwendige Versuchsanordnung aus einem Käfig, 
drei Meter lang und einen halben Meter breit, mit einem Eingang 
für die Ratte an einem Ende und einem Futternapf am anderen. 
Zehn Sekunden nachdem die Ratte in den Käfig geschlüpft ist, 
fällt Futter in den Napf, vorausgesetzt, sie ist bis dahin noch nicht 
bei ihm gewesen. Erreicht sie ihn schneller, so gibt es kein Futter. 
Beim erstmaligen Betreten des Versuchskäfigs laufen die Ratten 
meist direkt zum Futternapf, finden ihn aber leer vor, da sie für den 
kurzen Weg nur etwa zwei Sekunden benötigen. Beim zweiten Mal 
wiederholt sich diese Prozedur, doch beim dritten Versuch wissen 
die meisten Ratten schon, dass es dort nichts zu fressen gibt, und 
erkunden geruhsam den Käfig. Vielleicht putzen sie sich und inspi- 
zieren anschließend die Ecken. Plötzlich fällt Futter in den Napf. 
Die Ratten bringen ihr Verhalten während der «Wartezeit» in Zu- 
sammenhang mit der Futterbelohnung und wiederholen bei den 
nächsten Versuchen immer wieder die bei der ersten erfolgreichen 
Annäherung vollzogenen Pirouetten. Das Ritual ist selbstbestär- 
kend, denn schließlich führt es immer zum Erfolg. Wäre die Ratte 
nicht nur auf Futter, sondern auch auf Erkenntnis aus, müsste sie 
es riskieren, eventuell leer auszugehen, und das Ritual zu Prüfzwe- 
cken einmal abwandeln. 

Ein analoges Spiel führen wir in unserer Vorlesung durch. Jeder 
Teilnehmer zieht ein Los. Wieder befinden sich auf jedem vier 
Zahlen (zum Beispiel 3-7-10-9), und die Teilnehmer sollen heraus- 
finden, nach welcher Regel ihre Reihenfolge zustande gekommen 
ist. Wie bei dem oben beschriebenen Spiel setzen die Teilnehmer 
ihre Zahlen fort, und der Spielleiter teilt ihnen mit, ob die neuen 
Ziffern dem gesuchten Schema entsprechen. Falsches Raten bringt 
ihnen keine Nachteile. Sie dürfen raten, sooft sie wollen, bis sie 
sicher sind, die Regel zu kennen. Diese schreiben sie dann auf ein 
Blatt Papier. 

Es gibt jedoch - was die Teilnehmer nicht wissen - einen gravie- 
renden Unterschied zum vorherigen Spiel: Die Zahlen sind erwür- 
felte Zufallsreihen, und auch die Antworten des Spielleiters auf 
Zahlenvorschläge sind beliebig. Über «richtig» oder «falsch » ent- 
scheidet ein kleiner Taschenrechner mit Zufallszahlen. Nach einer 
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gewissen Zeit geht der Spielleiter allerdings dazu über, jedes Mal 
«richtig» zu sagen. 

Die Ergebnisse dieses Spiels sind für uns immer wieder verblüf- 
fend und amüsant. Häufig gelangen unsere Probanden zu sehr 
komplexen Erklärungsmodellen, zum Beispiel: 

«Auf eine Zahl (15) folgt zweimal dieselbe Zahl (2), dann 
kommt wieder die erste, auf die jetzt aber nur einmal die zweite 
Zahl folgt. Danach kommt die erste Zahl, und die zweite wird ganz 
weggelassen. Dann beginnt die Folge von vorn: einmal die 15, 
zweimal die 2 etc. ...» 


Ein Gesetz gefunden: 
12 OT Ja 
2 Nein 


Anzahl der Versuchspersonen 


0 Mm! _[L_LD 


Sehr Ziemlich Unent- Ziemlich Sehr 
sicher sicher schieden unsicher unsicher 


Sicherheitsgefühl 
Abbildung 56: Sicherheitsgefühl fündiger und nichtfündiger Versuchsper- 


sonen. Dies ist gleichzeitig ein Beispiel, wie sich aus ganz wenigen Mes- 
sungen eine protzige Abbildung herstellen lässt. 


Oder: 

«Ausgehend von der Zahl 4, wird abwechselnd 9 addiert und 12 
subtrahiert. Nach dem vierten Rechenvorgang wird abwechselnd 9 
subtrahiert und 12 addiert, bis man wieder zur Ausgangszahl 4 ge- 
langt.» 
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Oder, noch schöner: 

«Mir ist die Lösung bekannt, aber sie ist so kompliziert, dass ich 
sie nicht aufschreiben kann.» 

Von den sechsunddreißig Teilnehmern erklärten lediglich acht, 
dass sie keine Lösung gefunden hatten. Einer gab auf. Die anderen 
siebenundzwanzig glaubten, eine « Gesetzmäßigkeit» zu erkennen. 
Auch sollten alle angeben, wie sicher sie sich mit ihrer Aufbauregel 
für die Zahlenfolge fühlten. Das Resultat zeigt Abbildung 56. 

Diejenigen, die korrekterweise keine Gesetzmäßigkeit aufdecken 
konnten, zweifelten meist an diesem Ergebnis. Dagegen waren sich 
die Teilnehmer, die eine Regel zu erkennen glaubten, wo keine war, 
ihrer Lösung meistens sehr gewiss. Das Sicherheitsgefühl der Fin- 
der und Nichtfinder war statistisch hoch signifikant verschieden 
(p = 0,0001). 

Ein Wissenschaftler, der ein auf reinem Zufall beruhendes Ge- 
schehen untersucht, wird, wenn er sich nicht grundsätzlich von den 
Hörern unserer Vorlesung unterscheidet, wahrscheinlich dennoch 
vermeintliche Gesetzmäßigkeiten finden, die für ihn unzweifelhaft 
existieren. Dasselbe wird einem Forscher widerfahren, der mit un- 
zulänglichen Methoden arbeitet. Die Daten, die er erhält, sind 
chaotisch, aber er wird darin eine Regel erkennen und die Gewiss- 
heit haben, dass sie gilt. Diejenigen hingegen, die zu dem richtigen 
Schluss kommen, dass keine Gesetzmäßigkeit vorliegt, werden 
möglicherweise sehr unsicher in ihrem Urteil sein. 

Das Unbehagen, das uns das Unbekannte, das Nichtverstandene 
bereitet, wird durch Erklärungen und Theorien erträglicher. Wenn 
sich Widersprüche zu unseren Gedankengebäuden ergeben, dann 
werden sie nicht verworfen, sondern lieber geflickt, erweitert und 
verfeinert. So entsteht eine sich selbst abdichtende Theorie, die sich 
schließlich zu einer prinzipiell nicht falsifizierbaren Annahme ver- 
härtet. Nach Karl Popper ist jedoch Falsifizierbarkeit (das heißt 
schlicht die Möglichkeit der Widerlegung) ein unverzichtbarer 
Bestandteil jeder wissenschaftlichen Theorie. Hierzu schreibt Watz- 
lawick (1976): «Wenn wir nach langem Suchen und peinlicher Un- 
gewissheit uns endlich einen bestimmten Sachverhalt erklären zu 
können glauben, kann unser darin investierter emotionaler Einsatz 
so groß sein, daß wir es vorziehen, unleugbare Tatsachen, die un- 
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serer Erklärung widersprechen, für unwahr oder unwirklich zu er- 
klären, statt unsere Erklärung diesen Tatsachen anzupassen. Daß 
derartige Retuschen der Wirklichkeit bedenkliche Folgen für un- 
sere Wirklichkeitsanpassung haben können, versteht sich von 
selbst.» 

Uns, den Autoren, wird es nicht anders ergehen. Die Erkennt- 
nisse, die uns motivieren, dieses Buch zu schreiben und die Vor- 
lesung «Vom Irrtum zum Lehrsatz» anzubieten, haben wir so 
mühsam erworben, dass wir sie nicht gern in Frage stellen möch- 
ten. Sicher haben wir uns dem Thema nicht objektiv und ohne 
selektive Wahrnehmung genähert, doch hoffen wir, dass wir in 
einigen Jahren und mit etwas mehr Abstand herzlich über unsere 
eigenen Irrtümer lachen können. 


Aufruf zum Kaffeekränzchen 
Vorschläge zum kritischen Lesen 
von klinischen Studien 


Richtiges Lesen ist Bürsten gegen den Strich. 
Doris Lessing 


Erst durch Lesen lernt man, 
wieviel man ungelesen lassen kann. 
Wilhelm Raabe 


Es ist sehr schwierig, eine wissenschaftliche Publikation allein zu 
verstehen. Zu mehreren ist dies deutlich einfacher und oft auch un- 
terhaltsamer. Ein regelmäßig tagender Literaturarbeitskreis ist zur 
Bewältigung der Publikationsflut sehr hilfreich. Es ist nicht not- 
wendig, dass alle Teilnehmer einer solchen Runde Spezialisten 
sind. Unabdingbar sind aber natürlich Interesse an der Thematik 
und ausreichende Englischkenntnisse, da die meisten Arbeiten in 
dieser Sprache erscheinen. Interesse ist sicherlich immer dann vor- 
handen, wenn die besprochene Arbeit besonders relevant für das 
eigene Arbeitsgebiet oder für die eigene Erkrankung ist. Wenn man 
die Aussagekraft eines Ergebnisses zuverlässig beurteilen will, 
dann ist es unbedingt notwendig, dass man die Originalarbeiten 
liest. Nur dort findet man die hierfür notwendigen Details. 


Wir führen seit vielen Jahren Literaturarbeitskreise durch. Mit den 
folgenden Spielregeln haben wir die besten Erfahrungen gemacht - 
aber sicher geht es auch anders. Wir treffen uns einmal in der Wo- 
che bzw. einmal im Monat für eine bis eineinhalb Stunden. Bei 
jedem Treffen wird nur eine einzige Arbeit diskutiert. Es sollten 
regelmäßig mindestens fünf Teilnehmer sein, die nicht unbedingt 
immer dieselben sein müssen. Bei weniger Teilnehmern fehlt die 
«kritische Masse». Bei mehr als fünfzehn Teilnehmern nimmt er- 
fahrungsgemäß die Lebendigkeit der Diskussion ab. Optimal sind 
sieben bis zehn Teilnehmer. Ein Teilnehmer stellt die Arbeit vor. Die 
Vorstellung erfolgt völlig informell. Ein runder Vortrag mit stich- 


haltigem Fazit würgt die Diskussion ab. Der verantwortliche Teil- 
nehmer hat die Arbeit nach seiner Interessenlage selbst ausgesucht 
und gründlich gelesen. Eine Woche vorher hat er Kopien der Arbeit 
verteilt, sodass jeder Gelegenheit hatte, sie ebenfalls zu lesen. Die 
anderen Teilnehmer sind dazu aber nicht verpflichtet. Allerdings 
hat man mehr von der Gesprächsrunde, wenn man es doch getan 
hat. Die Vorstellung der Arbeit darf jederzeit von jedermann durch 
Fragen oder Kommentare unterbrochen werden. Auf diesem Wege 
erreichen wir im Allgemeinen eine lebendige Diskussion. 


Woran erkennt man eine aussagekräftige Studie? Dass prominente 
Autoren, bekannte Institutionen und angesehene Fachzeitschriften 
kein ausreichendes Kriterium sind, haben wir im vorliegenden 
Buch hoffentlich deutlich genug belegt. Darum versuchen wir, in 
unseren Arbeitskreisen die folgenden Fragen zu beantworten (die 
Liste erhebt keinen Anspruch auf Vollständigkeit): 


° Um welche Publikationsart handelt es sich? (Abschlussbericht, 
Zwischenbericht, Abstract) 

* Wird eine Hypothese getestet, oder ist es eine explorative Stu- 
die? 

* Wird die zu testende Hypothese klar definiert und ist sie sinn- 
voll? (primärer Endpunkt, Zeitpunkt der Analyse, Festlegung 
des Signifikanzniveaus) 

« Wird multiples Testen vermieden oder dafür korrigiert? 

e Ist der primäre Endpunkt klinisch entscheidend oder ein Surro- 
gat? 

« Wie wurden die Patienten der Studie ausgewählt? (Ein-/ Aus- 
schlusskriterien) 

° Wurde randomisiert? Nach welchen Kriterien? (Stratifizierung ?) 

e Handelt es sich um eine kontrollierte Studie? (historische Kon- 
trolle, Placebo, Standardbehandlung usw.) 

* Waren die Behandlungsgruppen vergleichbar’? 

e Handelt es sich um eine offene oder eine Blindstudie 

e Sind Patienten bei der Analyse « verschwunden » ? 

° Wie wurde mit Protokollverstößen umgegangen? Intention-to- 
treat-Analyse ? 
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Sind die Daten konsistent? Auch mit anderen Arbeiten über das- 
selbe Datenmaterial? 

Wird über Nebenwirkungen berichtet? Quantitativ? 

Ist die Anzahl der Patienten ausreichend? Wie hoch ist die 
power? 

Wurde der minimale klinisch relevante Unterschied sinnvoll ge- 
wählt? 

Werden alle relevanten Ergebnisse in Tabellen und Abbildungen 
gezeigt? 

Sind alle Ergebnisse mit Fehlerangaben beziehungsweise Ver- 
trauensbereichen angegeben ? 

Wird bei den Abbildungen und Tabellen mit der Wahrheit gelo- 
gen? 

Insbesondere in der Schlussfolgerung: Wird zwischen Spekula- 
tionen und Fakten unterschieden ? 


Häufig lassen sich nicht alle Fragen beantworten, weil nicht detail- 
liert genug berichtet wurde, aber beim Abarbeiten dieser Liste wird 
meist schnell klar, wie die Aussagekraft einer Arbeit einzuschätzen 
ist, vor allem dann, wenn ein Kardinalfehler begangen wurde, der 
das gesamte Ergebnis der Studie in Frage stellt. In diesem Falle 
kann man die Arbeit getrost in den Papierkorb werfen. 
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Nur jeder zweite Mann ein Mensch? 
Interpretation statistischer Signifikanztests 
beruht auf Trugschluss 


Männer sind Schweine. 
Die Arzte 


Die Wahrscheinlichkeit, dass ein Mensch ein Mann ist, beträgt 50 
Prozent. Dann beträgt die Wahrscheinlichkeit, dass ein Mann ein 
Mensch ist, ebenfalls 50 Prozent. Wenn Ihnen das Ergebnis dieser 
Schlussfolgerung gefällt, dann haben wir noch eine Fußnote! für 
Sie. Wenn Ihnen die Art der Schlussfolgerung nicht ganz geheuer 
ist, dann müssen wir Ihnen leider mitteilen, dass Ihre Bedenken 
zwar berechtigt sind, dies aber eine grundlegende Art des Folgerns 
in der Forschung ist. 

Wir haben in den vorangehenden Kapiteln bereits einige Miss- 
stände in der gegenwärtig üblichen Bewertung wissenschaftlicher 
Ergebnisse aufgezeigt. Dazu gehörten zahlreiche «kleine » Irrtümer 
und Trugschlüsse, auf die man nicht mehr hereinfällt, wenn man 
ihren Mechanismus durchschaut hat. Der Fehler erster Art und der 
Fehler zweiter Art sind im Prinzip ebenfalls sehr einfache Irrtums- 
quellen. Allerdings verfügen sie, zumindest in der medizinischen 
und ökologischen Forschung, über ein immenses Trugschlusspo- 
tenzial. Sie sind sehr weit verbreitet, vermutlich weil quantitative 
mathematische Methoden erforderlich sind, um sie zu erkennen 
und zu eliminieren. Wir haben, pragmatisch und unvollständig, 
einige einfache Werkzeuge der Statistik beschrieben, mit deren 
Hilfe Sie Ihre Trugschlussanfälligkeit deutlich reduzieren können. 
All dies geschah auf dem Boden der Statistik und der gängigen Art 
und Weise, ein Ergebnis zu interpretieren. 

In diesem Kapitel werden wir nach einigen Vorbemerkungen die 
allseits angewandte und abgesegnete Interpretation statistischer 


1 Und was ist die andere Hälfte? Ganz einfach: Jedes zweite Schwein ist 
männlich. Also ist jeder zweite Mann ein Schwein. 
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Signifikanz in Frage stellen und damit der Grundlage zahlreicher 
Wissens- und Forschungsgebiete vors Schienbein treten. Wir hof- 
fen, durch die vorhergehenden Kapitel Ihr Vertrauen so weit 
gewonnen zu haben, dass Sie jetzt weiterlesen. Bis zum Ende. Tun 
Sie sich den Gefallen, denn der letzte Happen ist der beste. 


Mit Logik keine Panik 
Täuschung bei der Früherkennung 


Am Anfang des Buches haben wir uns mit der Logik diagnostischer 
Tests befasst. Wir haben dort auch gesehen, dass man sich bei der 
Interpretation eines Testergebnisses leicht täuschen kann. Vom 
Test auf Bellsucht war bekannt, dass er mit 99 Prozent Wahr- 
scheinlichkeit bei einem Kranken positiv ausfällt, diesen also rich- 
tig als krank erkennt. Einen Gesunden erkennt er mit 98 Prozent 
Wahrscheinlichkeit richtig als gesund. Ein Patient mit positivem 
Testergebnis interessiert sich natürlich für die Frage: Wie wahr- 
scheinlich ist es, dass ich bei positivem Testergebnis tatsächlich 
krank bin? Vielen liegt der, wie wir gesehen haben falsche, Gedan- 
kengang nahe: Wenn ich krank bin, dann ist das Testergebnis mit 
99 Prozent positiv. Folgerung: Wenn das Testergebnis positiv ist, 
dann bin ich mit 99 Prozent Wahrscheinlichkeit krank. Bei dieser 
unlogischen Art zu folgern wird aus der Wahrscheinlichkeit eines 
positiven Testergebnisses bei Erkrankung mir nichts dir nichts die 
Wahrscheinlichkeit, erkrankt zu sein. Wie man die Frage des Pa- 
tienten richtig beantwortet, haben wir im ersten Kapitel gesehen. 


Dass man die Zuordnung der Wahrscheinlichkeiten nicht einfach 
umdrehen kann, sieht man auch schnell an folgendem Beispiel: 
Wenn jemand im Lotto mitspielt, dann ist es sehr unwahrschein- 
lich, dass er «Sechs Richtige» hat”. Also: Wenn jemand sechs 


2 Die Wahrscheinlichkeit, im Lotto «6 aus 49» sechs Richtige zu haben, 
beträgt ca. 1:14000000. 
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Richtige hat, dann ist es sehr unwahrscheinlich, dass er im Lotto 
mitgespielt hat. Diese Argumentation wird vielleicht den Lotto- 
veranstalter erfreuen, wenn er sich vor der Gewinnauszahlung 
drücken möchte, aber logisch ist sie nicht. 


Alles egal, oder? 
Die Nullhypothese 


Kehren wir zurück zu unserem Ärzteteam auf Seite 56. Deren Stan- 
dardbehandlung ist bei 11 von 30 Patienten, entsprechend 37 Pro- 
zent, erfolgreich. Die neue Behandlung führt bei 19 von 30 Patien- 
ten zum Erfolg, entsprechend 63 Prozent. Mit dem Vierfeldertest 
rechnen wir den p-Wert aus. Er beträgt p = 0,0404 =4,04 Prozent. 
Das Ergebnis ist statistisch signifikant, denn der p-Wert ist kleiner 
als fünf Prozent, dem nahezu allseits akzeptierten Signifikanzni- 
veau. Nun zur Gretchen-Frage, die formal der obigen Patienten- 
frage entspricht: Wie wahrscheinlich ist es nun, dass die neue Be- 
handlung tatsächlich erfolgreicher ist als die Standardbehandlung? 
Die häufigste Antwort lautet: Die Aussage ist mit einer Wahr- 
scheinlichkeit von 4,04 Prozent falsch, aber zu 100 Prozent - 4,04 
Prozent = 95,96 Prozent wahr. Leider ist dies ein Trugschluss. 

Für die Durchführung dieser statistischen Analyse mussten Sie 
zunächst voraussetzen, dass sich die Behandlungserfolge nicht 
grundsätzlich unterscheiden und dass die differierenden Prozent- 
sätze auf einem Zufall beruhen. Dies ist die so genannte Nullhypo- 
these. Im Weiteren haben wir den p-Wert berechnet, die Wahr- 
scheinlichkeit, mit der die Ergebnisse zufällig so unterschiedlich 
(oder extremer) ausfallen, obwohl beide Therapien gleichwertig 
sind. Wenn der p-Wert sehr klein ist, wird die Nullhypothese ver- 
worfen, das Ergebnis heißt dann «statistisch signifikant». 

Das verbreitete, aber wie wir sehen werden unlogische Ritual 
noch einmal in anderen Worten: Wenn die Nullhypothese gilt, 
dann tritt das beobachtete Ergebnis mit 4,04 Prozent Wahrschein- 
lichkeit ein. Folgerung: Wenn das Ergebnis eintritt, gilt die Nullhy- 


270 


pothese mit 4,04 Prozent Wahrscheinlichkeit. Dabei ist aus der 
Wahrscheinlichkeit des Ergebnisses bei Gültigkeit der Nullhypo- 
these ganz klammheimlich die Wahrscheinlichkeit für die Gültig- 
keit der Nullhypothese geworden. Diese Art des Schlussfolgerns, 
diese umgedrehte Zuordnung der Wahrscheinlichkeiten, ist falsch. 
Trotzdem ist es die weltweit angewandte und anerkannte Argu- 
mentationsweise der Medizin und vieler anderer Disziplinen beim 
statistischen Testen. Wie man den Signifikanztest richtig interpre- 
tiert, werden wir im nächsten Abschnitt sehen. 


Irren ist menschlich 
Interpretation eines statistisch signifikanten Ergebnisses 


Der große Feind der Wahrheit ist oft nicht die Lüge, 
— überlegt, erfunden und unehrlich -, 

sondern der Mythos, 

— beständig, überzeugend und unrealistisch. 

John F. Kennedy 


Wir haben in den letzten Abschnitten mehrere Male eine Schluss- 
folgerung mit Wahrscheinlichkeitsaussage einfach umgedreht und 
damit mehr oder weniger offensichtlichen Unsinn fabriziert. Wir 
zeigen noch einmal den direkten Vergleich. 


Wenn jemand ein Mensch ist, dann ist er mit 50-prozentiger 
Wahrscheinlichkeit männlich. 

Wenn jemand männlich ist, dann ist er mit 50-prozentiger 
Wahrscheinlichkeit ein Mensch. 


Wenn die Person erkrankt ist, dann ist das Testergebnis mit 
99-prozentiger Wahrscheinlichkeit positiv. 

Wenn das Testergebnis positiv ist, dann ist die Person mit 
99-prozentiger Wahrscheinlichkeit erkrankt. 
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Wenn man Lotto spielt, dann erzielt man sehr wahrscheinlich 
nicht den Lottohauptgewinn. 

Wenn man einen Lottohauptgewinn erzielt hat, dann hat man 
sehr wahrscheinlich nicht Lotto gespielt. 


Wenn die Nullhypothese richtig ist, dann ist das Ergebnis un- 
wahrscheinlich (4,04 Prozent). 

Wenn das Ergebnis eingetreten ist, dann ist die Richtigkeit der 
Nullhypothese unwahrscheinlich (4,04 Prozent). 


Glücklicherweise wissen wir für den diagnostischen Test, wie die 
Argumentation richtig läuft. Damit Sie nicht dauernd hin und her 
blättern müssen, schreiben wir nochmal kurz das Wichtigste für 
die Interpretation eines diagnostischen Tests auf und wenden das 
so Wiederholte auf eine klinische Studie an. 

Von der Häufigkeit der Erkrankung wissen wir, dass etwa jeder 
Tausendste befallen ist. Von 100100 Menschen sind also 100 
krank und 100000 gesund (2. Spalte der Tabelle 38, die identisch 
ist mit Tabelle 1 im ersten Kapitel). Vom Test war bekannt, dass er 
mit 99 Prozent Wahrscheinlichkeit bei einem Kranken positiv aus- 
fällt, diesen also richtig als krank erkennt. Von den 100 Kranken 
erhalten 99 ein positives Ergebnis. Einer erhält fälschlicherweise 
ein negatives. Einen Gesunden erkennt der Test mit 98 Prozent 
Wahrscheinlichkeit richtig als gesund. Von den 100000 Gesunden 
erhalten 98000 ein negatives Ergebnis. 2000 erhalten fälschlicher- 
weise ein positives. Am Ende gibt es 2099 positive Ergebnisse, von 
denen aber nur 99 richtig positiv sind. Die entscheidende Frage 
lautet: Wie wahrscheinlich ist es, dass ich bei positivem Testergeb- 
nis tatsächlich krank bin? Die Lösung lautet 99/2099 =0,0472 = 
4,72 Prozent. 

Nun machen wir noch einmal dasselbe und wenden das Prinzip 
auf eine klinische Studie an. Dabei sind wir mehr als optimistisch: 
Die Studie war perfekt geplant und wurde fehlerfrei durchgeführt. 
Das Signifikanzniveau beträgt 5 Prozent. Die Wahrscheinlichkeit 
für den Fehler zweiter Art beträgt 20 Prozent. Für unsere Analogie 
ersetzen wir «Krank» durch «Therapie A ist besser als Therapie 
B», «Gesund» durch «Therapie A ist nicht besser als Therapie B», 


272 


Tabelle 38: Bestimmung der Wahrscheinlichkeit, bei positivem Testergeb- 
nis tatsächlich krank zu sein. 


Anzahl Positiv Negativ 
Krank: 100 99 1 
Gesund: 100 000 2000 98000 
Summe: 100 100 2099 98001 


«Positiv» durch «Statistisch signifikant» und «Negativ» durch 
«Nicht statistisch signifikant» (siehe Tabelle 39). 

Nun müssen wir noch die Häufigkeit der Erkrankung überset- 
zen. Wenn ein Forscherteam ein neues Medikament oder eine neue 
chirurgische Methode oder was auch immer in einer Studie unter- 
suchen will, dann ist natürlich nicht sicher, dass die neue Behand- 
lung besser ist. Es besteht nur eine mehr oder weniger große Wahr- 
scheinlichkeit dafür. Wir lassen, damit wir ohne allzu große Um- 
schweife zur Tat schreiten können, für diese Wahrscheinlichkeit 
eine Zahl vom Himmel fallen: Sie soll hier 10 Prozent betragen. 
Das bedeutet: In jeder zehnten Studie wird eine neue Therapie aus- 
probiert, die tatsächlich besser ist als die Standardtherapie. Jetzt 
wie versprochen noch einmal dasselbe wie beim diagnostischen 
Test. 

Von der Wahrscheinlichkeit wissen wir, dass in jeder zehnten 
Studie Therapie A besser als Therapie B ist. Unter 1000 Studien ist 
dies also in 100 Studien der Fall, in 900 nicht (2. Spalte der Tabelle 
39). Von der Studie war bekannt, dass sie mit 20 Prozent Wahr- 
scheinlichkeit bei einem tatsächlichen «A besser B» zu keinem sta- 
tistisch signifikanten Ergebnis führt, ein «A besser B» also über- 
sieht. Von den 100 «A besser B»-Studien erhalten folglich 80 ein 
statistisch signifikantes Ergebnis. In 20 Studien ist das Ergebnis 
fälschlicherweise nicht statistisch signifikant. Wenn A nicht besser 
als B ist, liefert die Studie in fünf Prozent (unser Signifikanzniveau) 
fälschlicherweise ein statistisch signifikantes Ergebnis. Ein tatsäch- 
liches «A nicht besser B» führt mit 100 % - 5% = 95 % Wahr- 
scheinlichkeit richtigerweise zu einem nicht signifikanten Ergebnis. 
Von den 900 «A nicht besser B»-Studien erhalten somit 855 ein 
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nicht signifikantes Ergebnis. 45 erhalten fälschlicherweise ein si- 
gnifikantes. Am Ende gibt es 125 signifikante Ergebnisse, von de- 
nen aber nur 80 richtig sind. Die entscheidende Frage lautet: 
Wie wahrscheinlich ist es, dass bei statistisch signifikantem Studien- 
ergebnis Therapie A tatsächlich besser als Therapie B ist? Die 
Lösung lautet 80/125 =0,64=64 Prozent. 


Tabelle 39: Bestimmung der Wahrscheinlichkeit, dass bei statistisch signi- 
fikantem Ergebnis Therapie A tatsächlich besser als Therapie B ist. Das Si- 
gnifikanzniveau beträgt 5 Prozent. Die Wahrscheinlichkeit für den Fehler 
zweiter Art beträgt 20 Prozent. 


Statistisch Statistisch nicht 


a signifikant signifikant 
A besser als B 100 80 20 
A nicht besser als B 900 45 855 
Summe: 1000 125 875 


Mit 64 Prozent Wahrscheinlichkeit ist bei statistisch signifikantem 
Ergebnis die Therapie A besser als Therapie B. In 36 Prozent der 
Fälle ist sie es nicht. Obwohl wir eine perfekte Studie durchgeführt 
haben, irren wir uns mit 36 Prozent Wahrscheinlichkeit, wenn wir 
von der Wahrscheinlichkeit des überlegenen Ergebnisses auf die 
Wahrscheinlichkeit der Überlegenheit der Therapie A schließen. 
Lassen Sie sich nicht davon täuschen, dass die Studie mit 80 Pro- 
zent bzw. 95 Prozent jeweils das Richtige erkennt, so wie Sie sich 
hoffentlich auch nicht mehr davon täuschen lassen, wenn ein dia- 
gnostischer Test die Kranken und Gesunden jeweils mit hoher 
Wahrscheinlichkeit richtig erkennt. 

Die Erkenntnis, dass klinische Studien regelmäßig und massen- 
weise falsch interpretiert werden und dass der Vorhersagewert 
auch bei richtiger Interpretation eher bescheiden ist, ist schmerz- 
haft und Schwindel erregend. Zum Trost möchten wir zwei posi- 
tive Aspekte des Desasters erwähnen: 1.) Sie hatten Einblick in den 
womöglich folgenschwersten Irrtum des letzten und des laufenden 
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Jahrhunderts. 2.) Je schmerzhafter dieser Einblick war, umso 
wahrscheinlicher ist es, dass Sie die Geschichte bis morgen kom- 
plett verdrängt haben. 

Neue Therapiekonzepte entstehen am Schreibtisch, auch wenn 
die in sie einfließenden Erfahrungen an anderer Stelle gesammelt 
worden sind. So kann es passieren, dass zehn von zwanzig tollen 
Ideen eines genialen Forschers eine Verbesserung ergäben, wenn 
man sie untersuchte. Die so genannte A-priori-Wahrscheinlichkeit” 
beträgt dann 50 Prozent. Ein weniger begnadeter Wissenschaftler 
hat ebenfalls zwanzig tolle Ideen, aber nur zwei davon hätten sich 
als Treffer erwiesen. Seine A-priori-Wahrscheinlichkeit für ein «A 
besser B» beträgt 10 Prozent wie in unserem obigen Beispiel. Es ist 
leicht einzusehen, dass ein Fachmann mit größerer Sicherheit etwas 
Sinnvolles untersucht als ein Nichtfachmann. Soweit uns bekannt 
ist, existieren aber keine verlässlichen und anerkannten Methoden 
zur Abschätzung derartiger A-priori-Wahrscheinlichkeiten. Des- 
halb mussten wir die zehn Prozent vom Himmel fallen lassen. 

Damit ist das Thema keineswegs abgeschlossen. Ganz im Gegen- 
teil, es geht erst richtig los. Der Irrtum, der den Signifikanztests zu- 
grunde liegt, ist weit verbreitet, im täglichen Leben, in der Recht- 
sprechung, in der Forschung. Und: Wie kriegt man den Kopf aus 
der Schlinge, wenn man die A-priori-Wahrscheinlichkeiten nicht 
bestimmen kann, aber prinzipiell doch benötigt? ... an der span- 
nendsten Stelle kommt immer der Werbeblock. Das gerade ange- 
rissene Thema können wir an dieser Stelle nicht vertiefen und ver- 
breiten. Es hat nämlich ein ganzes Buch gefüllt, das unter dem Titel 
«Der Schein der Weisen » im Rowohlt Verlag erschienen ist. 


3 «A priori» bedeutet: im Voraus, vorher 


Schwamm ist ein 
vorzügliches Material ... 
Vom Wesen der Wissenschaft 


Die Stimme der Vernunft ist leise. 
Sigmund Freud 


Aus Fehlern wird man klug. Unserer Auffassung nach entspringt 
der Fortschritt in der Wissenschaft in erster Linie der strengen und 
gründlichen Kritik gängiger Theorien und Auffassungen. Der vor- 
sätzliche und auf den ersten Blick destruktive Versuch, Irrtümer 
und Fehler aufzuzeigen, ist in Wahrheit eine äußerst konstruktive 
Maßnahme. Mit dieser Sicht befinden wir uns zwar in guter Ge- 
sellschaft (Popper 1962; Mayo 1996), doch ist sie nicht sehr popu- 
lär. Das kann daran liegen, dass der gegenwärtige Forschungsbe- 
trieb nur die Flucht nach vorn zulässt. Positive Ergebnisse werden 
erwartet und gefördert, berechtigte Zweifel hingegen nicht be- 
lohnt. 

Die Reputation eines Wissenschaftlers hängt heutzutage davon 
ab, dass er regelmäßig Ergebnisse produziert. Andernfalls verliert 
er seinen guten Ruf und vielleicht sogar seinen Arbeitsplatz. Entde- 
ckungen kann man aber nicht bestellen wie ein Auto und nach an- 
gemessener Lieferfrist abholen. Es gibt kein Kochrezept für neue 
und vor allem gute Ideen. Sauberes Arbeiten und Fleiß allein rei- 
chen nicht aus. Es ist absurd, zu glauben, dass jeder Forscher pro 
Jahr mindestens eine international beachtenswerte Entdeckung 
macht. Dies wird aber von den Förderungsgremien erwartet. 

Je mehr neue Erkenntnisse ein Wissenschaftler pro Jahr gewinnt, 
umso höher ist sein Ansehen, umso sicherer sein Arbeitsplatz, und 
umso mehr Forschungsgelder erhält er. In der Geschichte der Wis- 
senschaft hat es immer wieder Genies gegeben, die tatsächlich lau- 
fend mit Entdeckungen aufwarten konnten. Dies sind Ausnahmen. 
Unter den gegenwärtigen Bedingungen der Forschungsförderung 
wächst die Bereitschaft, mit Tricks und Täuschungsmanövern zum 
Ziel zu kommen. Wir haben den Eindruck, dass dies auch unbe- 
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wusst geschehen kann, denn die uns persönlich bekannten Kolle- 
gen sind im Allgemeinen von ihren Ergebnissen überzeugt. 

Wer wird sein «schönes» Resultat, das ihm den Doktortitel, ei- 
nen Arbeitsvertrag oder eine Projektförderung einbringen oder 
Etatkürzungen verhindern kann, ernsthaft auf Herz und Nieren 
prüfen? Statt das Risiko einzugehen, sich selbst zu widerlegen, 
nutzt man doch viel lieber seine Zeit für neue schöne Ergebnisse. 
Gegenwärtig wird eher Nachlässigkeit gefördert. Selbstkritik, Kri- 
tik und gesunde Skepsis, die wichtigsten Werkzeuge der Forschung, 
sind bei dieser Art von Wissenschaft eher hinderlich. Nur wirklich 
unabhängige Wissenschaftler können sich einen derart soliden und 
umsichtigen Arbeitsstil leisten. Diese Unabhängigkeit war an der 
guten alten und angeblich verschlafenen deutschen Universität ge- 
währleistet. Dass sich dann einige in diesem Freiraum ausruhen 
und faulenzen, ist eine unvermeidliche, aber tragbare Nebenwir- 
kung. 

Tricks, die sich bewährt haben, kopieren Kollegen natürlich so- 
fort, oft ohne zu merken, dass sie nur einen Kunstgriff und nicht 
eine wissenschaftliche Methode übernehmen. Wenn der Trick gut 
ist, dann sind die Nachahmer in den folgenden Jahren ebenfalls be- 
sonders erfolgreich und werden deshalb wiederum kopiert. So 
breitet sich eine neue List aus wie eine Grippewelle. Das dabei ver- 
breitete «neue Wissen» füllt dann die Regale der Bibliotheken und 
verstaubt. 

Eine sehr treffende Beschreibung des gegenwärtigen Zustands 
der Wissenschaft haben wir in einer Kurzgeschichte Mark Twains 
mit dem etwas irreführenden Titel «Einige gelehrte Fabeln für gute 
alte Knaben und Mädchen» (Mark Twain 1860) gefunden. Diese 
Satire, die vor weit über hundert Jahren entstand, ist noch immer 
hochaktuell, vielleicht weil sie das eigentliche und somit unverän- 
derliche Wesen der Wissenschaft beschreibt. Das letzte Wort möch- 
ten wir daher Mark Twain und das allerletzte Professor Angel- 
wurm überlassen: 

«Einst hielten die Geschöpfe des Waldes eine große Versamm- 
lung ab und ernannten eine Kommission, bestehend aus den aus- 
gezeichnetsten Gelehrten, die ausziehen sollte, weit aus dem Walde 
und hinaus in die unbekannte und unerforschte Welt, um die 
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Wahrheit all dessen zu bestätigen, was an ihren Schulen und Uni- 
versitäten bereits gelehrt wurde, und ferner, um neue Entdeckun- 
gen zu machen. Es war das imposanteste Unternehmen dieser Art, 
das die Nation je in Angriff genommen hatte ... 

Nach Verlauf dreier Wochen trat die Expedition aus dem Walde 
heraus und blickte auf die weite, unbekannte Welt. Ein eindrucks- 
volles Schauspiel bot sich ihren Augen. Vor ihnen dehnte sich eine 
ungeheuer weite Ebene aus, bewässert von einem sich vielfach win- 
denden Strom, und dahinter türmte sich eine lange, hohe Schranke 
in den Himmel, sie wussten nicht, was. 

Der Mistkäfer sagte, er glaube, es sei einfach Land, hochkant 
stehend, denn er sei sicher, Bäume darauf zu erkennen. Professor 
Schnecke und die anderen erwiderten jedoch: «Sie sind zum Gra- 
ben angestellt, Sir - zu weiter nichts. Wir brauchen Ihre Muskeln, 
nicht Ihren Verstand. Wenn wir Ihre Meinung über wissenschaft- 
liche Dinge hören wollen, werden wir uns beeilen, Sie das wissen 
zu lassen. Überdies ist Ihre Unverfrorenheit unerträglich - hier 
herumzubummeln und sich in erhabene Fragen der Gelehrsamkeit 
einzumischen, während die anderen Arbeiter das Lager aufschla- 
gen! Gehen Sie los und helfen Sie beim Abladen des Gepäcks.» 

Unzerschmettert, uneingeschüchtert machte der Mistkäfer auf 
dem Absatz kehrt und bemerkte dabei zu sich selbst: «Wenn das 
kein hochkant gestelltes Land ist, will ich den Tod des Ungerechten 
sterben ' 

Professor Ochsenfrosch ... sagte, er glaube, der Höhenrücken 
sei der Wall, der die Erde umschließe. Er fuhr fort: «Unsere Väter 
haben uns eine Menge Wissen hinterlassen, aber sie waren nicht 
weit gereist, und deshalb dürfen wir dies als eine herrliche neue 
Entdeckung betrachten. Unser Ruhm ist uns nun sicher, selbst 
wenn unsere Arbeiten mit dieser einen Leistung beginnen und en- 
den würden. Ich bin neugierig, woraus dieser Wall errichtet ist. Ob 
es Schwamm ist? Schwamm ist ein redliches, gutes Material zur Er- 
richtung eines Walls.» 

Professor Schnecke nahm den Feldstecher an die Augen und un- 
terzog den Wall einer kritischen Untersuchung. Endlich sagte er: 
«Der Umstand, dass er nicht transparent ist, bestärkt mich in der 
Überzeugung, dass er ein dicker Dunst ist, gebildet durch die Wär- 
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meerzeugung aufsteigender Feuchtigkeit, die durch Refraktion 
dephlogistiziert wurde. Wenige endiometrische Experimente wür- 
den das bestätigen, aber es ist nicht nötig, die Sache liegt auf der 
Hand.» 

Damit schob er den Feldstecher zusammen und begab sich in 
sein Haus, um eine Eintragung über die Entdeckung des Endes der 
Welt und seine Beschaffenheit zu machen. 

«Ein scharfsinniger Kopfb, sagte Professor Angelwurm zu Pro- 
fessor Feldmaus. «Ein scharfsinniger Kopf! Nichts kann diesem 
erhabenen Geiste lange ein Geheimnis bleiben !>»» 


Dank 


Wenn wir keine Fehler hätten, würden 
wir nicht mit so lebhaftem Ver- 
gnügen in anderen welche entdecken. 
La Rochefoucauld 


Unser besonderer Dank gilt den internationalen Koryphäen unse- 
res und anderer Fachgebiete. Für dieses Buch waren ihre zahlrei- 
chen und facettenreichen Trugschlüsse Anlass, Motivation und 
Material zugleich. Wir danken den Teilnehmern unserer Vorlesun- 
gen «Vom Irrtum zum Lehrsatz», «Grundlagen quantitativer For- 
schung» sowie den Teilnehmern unseres Blockseminars For- 
schungsmethodik, von denen wir sehr viel mehr gelernt haben, als 
sie glauben. 

Für kritische Anmerkungen, sachdienliche Hinweise und ermun- 
ternde Worte danken wir herzlichst: Prof. Dr. Michael Baumann, 
Gertrud Beck, Dr. Jürgen Beeck, Prof. Dr. Jürgen Berger, Sönke 
Eickhölter, Renate Erb, Imke Hoffmann, Dr. Lothar Jander, Prof. 
Dr. Horst Jung, Dr. H.-Jürgen Krüger, Horst Leps, Jens Petersen, 
Dr. Annette Raabe, Jutta Schäfer, Dr. Hubert Vogler und Georg 
Wronberg. 

Für die verbliebenen Fehler sind selbstverständlich nur wir ver- 
antwortlich. Glauben Sie uns bitte nichts! Prüfen Sie alles selber 
nach. Wenn Sie einen Fehler finden oder eine Anregung haben, dann 
lassen Sie es uns bitte wissen (Postadresse: Martinistraße 52, Uni- 
versitätsklinikum Hamburg-Eppendorf, 20246 Hamburg; E-Mail: 
dubben@uke.uni-hamburg.de bzw. bebo@uke.uni-hamburg.de). 

Wir danken allen Lesern, die uns auf Fehler aufmerksam ge- 
macht haben. Wir können hier nur diejenigen aufführen, die uns 
jeweils erstmals auf eine Ungereimtheit hingewiesen haben: An- 
dreas Abraham, Thomas Bäder, Christian Berger, Riko Bornholdt, 
Christian Dockhorn, Prof. Dr. Manfred Drosg, Dr. Ulrich Frey, 
Kai-Uwe Goss, M.F. Harvey, Dr. Uwe Hassler, Franziska Haus- 
mann, Joachim Henkel, Dr. Christian Hennig, Prof. Dr. Horst 
Jung, Dipl.-Biol. Peter Kayatz, Dr. Hans-Dieter Klein, Dipl.-Ing. 
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Jochen Kranz, Peter Krause, Franz Krojer, Joseph Kuhn, Martin 
Kuppe, Prof. Dr. Alexander Matte, Robert Mestel, Dr. Otto Meyer 
zu Schwabedissen, Walter Müller, Prof. Dr. Wolfgang U. Müller, 
Jan Müller-Berghaus, Dr. Almut Noack, PD Dr. Thomas Nussbau- 
mer, Josef Pleschiutschnig, Dr. Martin Purschke, Dr. Harald Rup- 
penthal, Prof. Dr. Lothar Sachs, Dr. Roland Schwen, Gisbert W. 
Selke, Franz Sippel, Matthias Sperl, Prof. Dr. Michael Stobernack, 
Dr. Eckhard J. Umann, Andrea Warnke, Christoff Zalpour. 
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Anhang 
Für diejenigen, die alles ganz 
genau wissen wollen 


Jede Formel in einem Buch halbiert die Anzahl der Leser (Penrose 
1991). Darum sind die Formeln weitgehend in die Fußnoten und in 
diesen Anhang verbannt. Wir haben hier ein paar nützliche Werk- 
zeuge zusammengestellt, die uns immer wieder gute Dienste geleis- 
tet haben: 

1. eine Tabelle, der zu entnehmen ist, wie viele zufällig signifikante 
Ergebnisse Sie erwarten können, wenn eine bestimmte Anzahl von 
Tests durchgeführt wurde; 

2. eine Tabelle, die angibt, wie sicher Sie sein können, dass ein Er- 
eignis wirklich selten eintritt, wenn es selten beobachtet worden 
ist; 

3. eine Tabelle, mit deren Hilfe Sie auf einfache Weise den 95-Pro- 
zent-Vertrauensbereich des Medianwerts bestimmen können, und 
4. eine Tabelle, eine Grafik und eine Formel, mit deren Hilfe Sie 
aus der Prüfgröße x?, die wir zum Beispiel mit dem Vierfeldertest 
ermittelt haben, den Fehler erster Art (p-Wert) bestimmen können. 


I. Wie viele Zufallsergebnisse kann 
man erwarten? 

Anzahl der zufällig signifikanten Ergebnisse 
bei Mehrfachtests 


Viele Autoren geben in ihren Publikationen nicht die berechneten 
p-Werte an, sondern weisen nur darauf hin, dass sie einen oder 
mehrere signifikante Parameter gefunden haben. Eine Mehrfach- 
testkorrektur ist dann zwar nicht möglich, aber mit Tabelle 40 
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Tabelle 40: Wahrscheinlichkeit (in Prozent), mindestens x signitikante Er- 
gebnisse rein zufällig zu finden, wenn n unabhängige Tests mit völlig ir- 
relevanten Parametern durchgeführt werden (p; < 0,05) 


Anzahl Wahrscheinlichkeit (%) für mindestens x signifikante 
der Tests Zufallsbefunde 


x=1 x=2 x=3 x=4 x=5 x=6 x=7 x=8 x=9 x=10 


> 


1 5 

2 9,75 0,25 

3 14 0,73 0,01 

4 19 14 0,05 

5 25.23.02 

6 26 3,3 0,22 0,01 

7 30 4,4 0,38 0,02 

8 34 5,7 0,58 0,04 

9 37 71 0,84 0,06 

10 40 86 12 0,10 0,01 

11 43 10 15 0,16 0,01 

12 4 12 2,0 0,22 0,02 

13 49 14 2,5 0,31 0,03 

14 sl 15 30 0,42 0,04 

15 534 17 3,6 0,55 0,06 0,01 

16 56 19 43 0,70 0,09 0,01 

17 ss 21 50 0,88 0,12 0,01 

18 60 23 58 11 0,15 0,02 

19 62 25 67 13 0,20 0,02 

20 64 26 76 1,6 0,26 0,03 

25 2 3 13 34 0,72 0,12 0,02 

30 79 45 18 61 16 0,33 0,06 0,01 

35 833 53 25 96 2,9 0,72 0,15 0,03 

40 87 60 32 14 48 14 0,34 0,07 0,01 

45 0 67 39 19 73 24 0,66 0,16 0,03 0,01 
50 2 2 46 24 10 38 12 0,32 0,08 0,02 
60 ss 81 58 35 18 79 3,0 0,98 0,29 0,07 
70 7” 897 69 47 27 14 60 2,3 0,80 0,25 
80 HH ar 7 a Mm ar 1805 
90 994 83 6 4 29 16 81 36 1,5 
100 WE BER KE E 3 B 6 28 
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kann man trotzdem die Aussagekraft der Arbeit einschätzen. Sie 
zeigt, wie viele signifikante Ergebnisse x bei der Durchführung von 
n Tests mit völlig bedeutungslosen Parametern zu erwarten sind. 
Beispiel: Die Wahrscheinlichkeit, drei oder mehr signifikante Er- 
gebnisse zu erhalten, beträgt bei der Durchführung von fünfund- 
zwanzig Tests irrelevanter Parameter immerhin 13 Prozent (Tabelle 
40:n=25,x=3). 


il. Maximale Inzidenzen 
Maximale Häufigkeit seltener Ereignisse 


Für den Umgang mit «seltenen » Ereignissen ist Tabelle 41 gedacht. 
Sie gibt für verschiedene Patientenzahlen und Anzahlen zum Bei- 
spiel von Nebenwirkungen den einseitigen oberen 95-Prozent-Ver- 
trauensbereich exakt an. Zweck und Anwendung der Tabelle las- 
sen sich am besten an ein paar Beispielen erläutern. 

Beispiel 1: Ein neuartiges Therapiekonzept wird getestet. Man 
hat keinerlei Anhaltspunkte, um beurteilen zu können, wie häufig 
die Nebenwirkungen sind. In einer Serie von zwanzig Patienten 
tritt keine Komplikation auf. Das könnte jedoch reiner Zufall sein. 
Tabelle 41 ist zu entnehmen, dass die Häufigkeit maximal 14 Pro- 
zent beträgt (mit 95-prozentiger Sicherheit). 

Beispiel 2: Von sechzig Patienten haben zwei Nebenwirkungen 
erlitten. Nach Tabelle 41 beträgt die Obergrenze des 95 %-Vertrau- 
ensbereichs 11 Prozent. Es ist bemerkenswert, dass sie den durch- 
schnittlichen Wert von */,, = 0,033 = 3,3 Prozent deutlich über- 
schreitet. 

Mit der Tabelle kann auch die Mindestanzahl auswertbarer 
Patienten ermittelt werden, die in Studien zur Bestimmung von 
Toleranzdosen nötig ist. Dabei führt die Toleranzdosis zu einer 
vorgegebenen maximal akzeptierbaren Häufigkeit von Nebenwir- 
kungen. 

Beispiel 3: Ziel einer Studie ist die Ermittlung der Dosis einer 
Therapie, die bei maximal 5 Prozent der Behandlungen zu einer be- 
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stimmten Komplikation führt. Nach Tabelle 41 werden dazu min- 
destens sechzig Patienten benötigt. Dieser Wert ist abzulesen neben 
den 4,9 Prozent der «0 Ereignis »-Spalte. Mit nur fünfzig Patienten 
ohne Ereignis beträgt die maximale Häufigkeit bereits 5,9 Prozent. 
Ist nur ein Risiko von 0,1 Prozent akzeptierbar, dann sind mindes- 
tens dreitausend Patienten zur Toleranzdosenbestimmung erfor- 
derlich. 


Die Tabelle wurde berechnet mit der Formel 


E 
% 
K= 


R) x pKx (1 - p)N-K = 0,05 
o\K 


Für E beobachtete unter N möglichen Ereignissen wird die exakte 
obere Grenze des einseitigen oberen 95-Prozent-Vertrauensberei- 
ches durch dasjenige p angegeben, das die obige Gleichung erfüllt. 


Ill. Medianwert und 
95-Prozent-Vertrauensbereich 


Der Medianwert ist derjenige, der in der Mitte einer Reihe nach 
ihrer Größe sortierter Einzelwerte steht. Wenn man die Zahlen 
21-30-5-107-3 in die entsprechende Reihenfolge bringt, erhält man 
3-5-21-30-107. Der Medianwert ist somit die 21. Bei einer geraden 
Anzahl von Messdaten ist er der Mittelwert aus den beiden Zah- 
len, die in der Mitte stehen. Der wichtigste Vorteil des Median- ge- 
genüber dem Mittelwert ist, dass er von extremen Ergebnissen, wie 
sie zum Beispiel durch einzelne Fehlmessungen entstehen können, 
weitgehend unbeeinflusst bleibt. 

Experimentelle und klinische Daten sind immer nur Stichproben 
und liefern daher auch nur Schätzwerte für den Mittelwert bezie- 
hungsweise Medianwert der Grundgesamtheit, das heißt des 
«wahren Wertes». Deshalb ist es wichtig, die Zuverlässigkeit die- 
ser Schätzung zu kennen. Ein weiterer großer Vorteil des Median- 
wertes besteht darin, dass im Gegensatz zum Mittelwert für die Be- 
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Tabelle 41: Maximale Häufigkeit (das heißt obere Grenze des einseitigen 95-Pro; 
» Funktion der Anzahl der Ereignisse und der Patienten im Risiko 


.) 
a 
Anzahl der Anzahl der Ereignisse 
Patienten 
0 1 2 3 4 5 6 7 8 9 10 

1 95 100 

2 78 98 100 

3 64 87 99 100 

4 53 76 91 99 100 

R} 46 66 82 93 99 100 

6 40 59 73 85 94 99,2 100 

7 35 53 66 78 88 95 99,3 100 

8 32 48 60 72 8 89% 99,4 100 

9 29 43 33 66 75 84 91 96 99,5 100 
10 26 40 51 61 70 7885 92 97 99,5 100 
12 23 34 44 53 61 69 76 82 88 93 97 
14 20 30 39 47 55 61 68 74 80 85 90 
16 18 27 35 42 49 55 6 67 73 78 83 
18 16 24 32 38 44 50 56 61 66 Fi! 76 
20 14 22 29 35 41 46 51 56 61 66 70 
25 12 18 24 29 33 38 42 47 51 53 59 
30 9,5 15 20 24 28 32 36 40 43 47 50 
35 8,2 13 17 21 23 28 32 35 38 41 44 
40 2 12 15 19 22 29: 28 31 34 36 39 
45 6,5 11 14 17 20 22. 25 28 30 33 35 


rechnung seines Vertrauensbereiches keinerlei Annahmen über die 
Verteilung der Grundgesamtheit erforderlich sind. Der Vertrauens- 
bereich gilt auch für mehrgipflige Verteilungen. Es ist allgemein 
üblich, den 95-Prozent-Vertrauensbereich anzugeben. Das ist der 
Bereich, der mit 95-prozentiger Sicherheit den wahren Median- 
wert enthält. Die Popularität des 95-Prozent-Vertrauensbereiches 
hängt unmittelbar mit der Fünfprozentkonvention des p-Wertes 
zusammen. 

Die Berechnung des Vertrauensbereiches des Medianwerts 
ist sehr einfach. Sie beruht auf der Kombinatorik und liefert als 
Ergebnis die Tabelle 42, deren Anwendung wir anhand von drei 
Beispielen erläutern. 

Beispiel 1: Wir haben die fünfzehn Messwerte 


35 47 48 51 55 55 60 66 75 76 87 90 102 135 168 


n=15 sind x und y jeweils 3. Wir dürfen deshalb die drei größten 
(168, 135, 102) und die drei kleinsten Messwerte (35, 47, 48) strei- 
chen. Die verbleibende Spannweite (51 bis 90) ist der 95-Prozent- 
Vertrauensbereich. 

Beispiel 2: Für die vierzehn Messwerte 


35 47 48 51 55 60 66 75 76 87 90 102 135 168 


beträgt der Medianwert (75 + 66)/2 = 70,5. Bein = 14 sind x = 3 
und y=2. Es dürfen auf einer Seite - egal, auf welcher - drei und 
auf der anderen Seite zwei Messwerte gestrichen werden. Also ent- 
fallen entweder vorn 35, 47 und 48 und hinten 168 und 135, so- 
dass die verbleibende Spannweite 51 bis 102 den 95-Prozent-Ver- 
trauensbereich bildet, oder vorn 35 und 47 und hinten 168, 135 
und 102, sodass sich ein 95-Prozent-Vertrauensbereich von 48 bis 
90 ergibt. Beide Lösungen sind gleichwertig. 
Beispiel 3: Für die dreizehn Messwerte 


35 47 48 51 55 60 66 75 87 90 102 135 168 
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sindx=3 und y=1. Es dürfen auf einer Seite drei und auf der 
anderen Seite ein Messwert gestrichen werden. Zunächst liegt der 
95-Prozent-Vertrauensbereich demnach bei 51 bis 135 oder 47 bis 
90. Es können aber auch x=2 und y=2 entfallen, was zu einem 
95-Prozent-Vertrauensbereich von 48 bis 102 führt. Alle drei 
Lösungen sind gleichwertig. 

Für diejenigen Leser, die uns auf die Finger schauen wollen und 
an der Formel für die Berechnung des Vertrauensbereiches interes- 
siert sind, leiten wir sie anhand eines Beispiels her. Gegeben seien 
fünf Messwerte. Wie groß ist die Wahrscheinlichkeit, dass der Me- 
dianwert der Grundgesamtheit zwischen dem größten und dem 
kleinsten dieser fünf Messwerte liegt? 

Ein Messwert ist mit jeweils S0-prozentiger Wahrscheinlichkeit 
größer oder kleiner als der echte Medianwert der Grundgesamtheit 
- das ergibt sich aus der Definition des Medianwerts. (Der Fall, 
dass einer der Messwerte mit dem Medianwert identisch ist, soll 
hier vernachlässigt werden.) 

Die Wahrscheinlichkeit, dass alle fünf Messergebnisse größer 
sind als der echte Medianwert, beträgt 


(1/2)° = 1/32 


Ebenso groß ist die Wahrscheinlichkeit, dass alle fünf kleiner sind 
als der Medianwert. Für die verbleibende Wahrscheinlichkeit von 


1 - 1/32 - 1/32 = 30/32 = 0,9375 


liegt der Medianwert innerhalb der Spannweite. Mit anderen Wor- 
ten, die Spannweite von fünf Messwerten entspricht dem «93,75 
Prozent »-Vertrauensbereich. 

Der 95-Prozent-Vertrauensbereich kann erst mit der Spannweite 
von sechs Messwerten überschritten und somit angegeben werden. 
Dann ist die Wahrscheinlichkeit dafür, dass alle Messwerte größer 
beziehungsweise kleiner sind als der Medianwert, (1/2)° = 1/64. 
Das heißt, die Wahrscheinlichkeit dafür, dass der Medianwert der 
Grundgesamtheit in der Spannweite liegt, ist: 


Tabelle 42: Wenn n Beobachtungen vorliegen, geordnet vom kleins- 
ten zum größten Wert, so ist der 95-Prozent-Vertrauensbereich für 
den Median der Grundgesamtheit durch die Spannweite gegeben, 
die verbleibt, nachdem an einem Ende x und am anderen Ende y 
Beobachtungen gestrichen wurden. 


n x y n xy 1 Bag» ER n xy 
600 30 10 5 49 18 15 67 26 22 
00 > 17 17 25 25 
8. > 0 31 10 8 50 18 17 68 26 24 
> a Da | 9.29 53 9 5 23..25 
10 1 1 32 10 9 18 18 69 27 23 
112; 1 33-. 11.9 32. 49- 17 26. 25 
12,.,2,. 472: 10 10 18 18 707.27. 29 
13: 3-4 34 1 10 53 20 14 26 26 
2. 2 3%: 12% 9 19 18 71 28 23 

14 3 2 1- U 54 20 18 27 26 
15. 3758 3 2 1 19 19 72:28. 23 
16 4 3 377 338 33 20-419 2 27 
174 4 12 12 56 21 18 73 28 27 
18 5.:2 38. 13: LI 20 20 4 29 26 
4 4 12. 12 37 21 20 28 28 
195 4 33.38: 2 38 22: 19 13.29 V27 
20. 8..88 40 14 2 21 21 28 28 
211 6 4 13: 13 59 22 20 76 30 26 
Su) 4 14 13 21.-.21 29 28 

22: 6 3 2 15 2 60: 23.2 77 30 28 
23: 2,4 14 14 22:2] 29° 729 
6 6 43 15 14 6L: 23: 21 78: 31. -27 

24 76 44 16 12 22, 22; 30...29 
DS An 7 18,- 15 62 24 18 72..31..29 
26 8 6 45 16 14 23 22 30 30 
Ta 19.15 63 24 2 80: 32: 27 

27 8 2 46 16 15 23 23 31 30 
28 9 7 47 17 15 64 24 23 81 32: 29 
88 16 16 65 25 22 31. 731 

29 9 8 48 17 16 24 24 82: 33: 27 
66 25 24 32.63] 
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n 
83 


84 


85 


86 


87 


88 


89 


90 


91 


92 


93 


94 


95 


96 


97 


x 


33 
32 
33 
32 
34 
33 
34 
33 
35 
34 
35 
34 
36 
35 
36 
35 
37 
36 
37 
36 
38 
37 
38 
37 
38 
37 
39 
38 
39 
38 


y 

30 
32 
31 
32 
31 
32 
32 
33 
31 
33 
33 
34 
32 
34 
34 
35 
32 
35 
34 
36 
31 
36 
39 
37 
36 
37 
35 
37 
37 
38 


n 
98 


99 


100 


101 


102 


103 


104 


105 


106 


107 


108 


109 


110 


111 


x 


40 
39 
40 
39 
4 
40 
4 
40 
42 
4 
42 
4 
43 
42 
4 
43 
42 
44 
43 
42 
44 
43 
44 
43 
45 
44 
45 
44 
46 
45 


y' 


35 
38 
38 
39 
36 
39 
38 
40 
37 
40 
39 
4 
37 
40 
4 
40 
4 
36 
4 
42 
40 
42 
42 
43 
4 
43 
43 
44 
4 
44 


n 
112 


113 


114 


115 


116 


117 


118 


119 


120 


121 


122 


123 


124 


x 


46 
45 
47 
46 
47 
46 
48 
47 
46 
48 
47 
49 
48 
47 
49 
48 
50 
49 
48 
50 
49 
50 
49 
51 
50 
51 
50 
52 
51 
50 


y 


43 
45 
42 
45 
44 
46 
42 
45 
46 
45 
46 
42 
46 
47 
45 
47 
4 
47 
48 
46 
48 
48 
49 
47 
49 
48 
50 
47 
49 
50 
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1 - 1/64 — 1/64 = 62/64 = 0,9688 > 95 Prozent 


Wenn nun deutlich mehr Messwerte vorliegen, zum Beispiel acht, 
dann ist die Spannweite deutlich größer als der 95-Prozent-Ver- 
trauensbereich. In diesem Falle kann einer der Extremwerte gestri- 
chen werden. Um die Wahrscheinlichkeit zu berechnen, dass der 
Medianwert in der dann noch verbleibenden Spannweite der rest- 
lichen sieben Messwerte liegt, muss man zunächst einmal ermit- 
teln, wie groß die Wahrscheinlichkeit ist, dass bei acht Messwerten 
genau einer größer (kleiner) ist als der Medianwert der Grundge- 
samtheit. Diese Wahrscheinlichkeit beträgt 


8x (1/2)? = 8/256 


Der Vertrauensbereich der Spannweite bei Streichung eines Ex- 
tremwertes ist dann also 


1 - 1/7256 - 1/256 — 8/256 = 246/256 = 0,9609 > 95 Prozent 


Bei mehr Messwerten dürfen dann an beiden Enden immer mehr 
Extremwerte gestrichen werden, um den 95-Prozent-Vertrauensbe- 
reich durch die verbleibende Spannweite zu bestimmen. Wenn P 
die Wahrscheinlichkeit dafür darstellt, dass die Spannweite der ver- 
bleibenden von insgesamt n Messwerten, von denen man an einem 
Extrem x und am anderen Extrem y Messwerte gestrichen hat, den 
Medianwert der Grundgesamtheit enthält, so ist P gegeben durch 
die Formel: 
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IV. Prüfgröße und Fehler erster Art (p-Wert) 


Zur Bestimmung des Fehlers erster Art (p-Wert) aus der Prüfgröße 
des Vierfeldertests bieten wir drei Möglichkeiten, die Sie wahl- 
weise und ganz nach persönlicher Vorliebe anwenden können. 


HR 
p= Ix 10°“ 
Diese Faustformel gilt in sehr guter Näherung, wenn die Prüfgröße 


zwischen 2,0 und 8,0 liegt. 


0.1 
5 0.05 
3 
Q 
0.01 
0.005 
0.001 


0 2 = 6 8 10 


Prüfgröße Ye 


Abbildung 57: Zusammenhang zwischen der Prüfgröße und dem p-Wert. 
Hier sind einfach die Werte der Tabelle 43 gegeneinander aufgetragen. 
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Tabelle 43: Tabelle zur Umrechnung von x? in p-Werte (auszugsweise entnommen 


X p X p X p X 

0,0 1,0000 2,0 0,1573 4,0 0,0455 6,0 
0,1 0,7518 2,1 0,1473 4,1 0,0429 6,1 
0,2 0,6547 22 0,1380 42 0,0404 6,2 
0,3 0,5839 2,3 0,1294 4,3 0,0381 6,3 
0,4 0,5271 2,4 0,1214 4,4 0,0359 6,4 
0,5 0,4795 2,5 0,1139 4,5 0,0339 6,5 
0,6 0,4386 2,6 0,1069 4,6 0,0320 6,6 
0,7 0,4028 2,7 0,1004 4,7 0,0302 6,7 
0,8 0,3711 2,8 0,0943 4,8 0,0285 6,8 
0,9 0,3428 2,9 0,0886 4,9 0,0269 6,9 
1,0 0,3173 3,0 0,0833 5,0 0,0254 7,0 
1,1 0,2943 3,1 0,0783 5,1 0,0240 7,1 
12 0,2733 3,2 0,0737 52 0,0226 72 
1,3 0,2542 33 0,0693 5,3 0,0213 7,3 
1,4 0,2367 3,4 0,0652 5,4 0,0202 7,4 
1,5 0,2207 3,5 0,0614 5,5 0,0191 7,5 
1,6 0,2059 3,6 0,0578 5,6 0,0180 7,6 
1,7 0,1923 3,7 0,0544 5,7 0,0170 7,7 
1,8 0,1797 3,8 0,0513 5,8 0,0160 7,8 


1,9 0,1681 3,9 0,0483 359 0,0151 7,9 


V. Auflösung der Manipulationsaufgaben 
von Seite 170 


Milchpreise: Das erste Beispiel ist das einfachste, weil wir uns 
schon so an diese Art der Manipulation gewöhnt haben. Zunächst 
berechnen Sie für jedes Jahr die Inflationsrate. Im ersten Jahr Ihres 
Amtsvorgängers beträgt sie (34/17 — 1) x 100 Prozent = 100 Pro- 
zent, weil der Milchpreis von 17 auf 34 Penunzen, also auf das 
Doppelte gestiegen ist. Dann tragen Sie die Inflationsrate gegen die 
Zeit auf (Abbildung 58). Bei Ihrem Vorgänger betrug die Inflati- 
onsrate immer etwa 100 Prozent. Bei Ihnen hat sie kontinuierlich 
abgenommen. Mit dieser Grafik können Sie Ihre Wähler leicht da- 
von überzeugen, dass Sie die Geldentwertung in weiteren zehn 
Amtsjahren vollständig zum Stillstand gebracht haben werden. 
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Abbildung 58: Aus den Milchpreisen berechnete Inflationsrate 


Zinsen: Dieses Problem ist schon schwieriger zu lösen. Tragen Sie 
die Zunahme der Zinsen des Bankhauses Schröpf im Vergleich zu 
der der anderen Bank auf (Abbildung 59). Die Zunahme der Zin- 
sen war beim Bankhaus Schröpf immer höher. Noch deutlicher 
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Abbildung 59: Verlauf der Zunahme der Zinszahlungen bei zwei 
Bankunternehmen 


wird der Unterschied, wenn sie die relative Zunahme der Zinsen 
auftragen. 

Inflationsrate: Die Lage erscheint hoffnungslos. Dank unserer 
Beratung ist Ihre Wiederwahl trotzdem so gut wie gesichert. Stellen 
Sie sich auf den Standpunkt, Prozentrechnung sei ein statistischer 


60 


50 


Wertverlust in Pfennigen 
pro 10 Jahre 


Gegner Sie 
Abbildung 60: Darstellung des Geldwertverlustes 
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Trick, mit dem Ihr skrupelloser Gegner Ihre Wähler aufs Glatteis 
führen will. Was schließlich wirklich zählt, sind Mark und Pfennig 
(Abbildung 60). Beim Amtsantritt Ihres Gegners im Jahre 1986 
war die Mark noch 100 Pfennig wert. Als Sie 1996 das Ruder über- 
nahmen, war die Mark im Vergleich zu 1986 nur noch 35 Pfennig 
wert. Das entspricht einem Kaufkraftverlust von 65 Pfennig in 
zehn Jahren. Am Ende Ihrer Amtsperiode ist die Mark nur noch 6 
Pfennig wert. Dies ist zwar bedauerlich, doch beträgt der Wertver- 
lust nur 29 Pfennig in zehn Jahren, also noch nicht einmal die 
Hälfte dessen, was Ihr Gegner verschuldet hat. Sie können übrigens 
guten Gewissens versprechen, Sie würden bei Ihrer Wiederwahl 
dafür sorgen, dass der Wertverlust in Ihrer folgenden Amtsperiode 
unter 6 Pfennigen bleibt. 


VI. Auflösung des Kartenspiels 


Die richtige Lösung lautet «A» und «7». Wenn ich die Karte «A» 
umdrehe und finde auf der Rückseite eine ungerade Zahl, dann 
habe ich die Hypothese falsifiziert. Wenn ich die Karte «7» um- 
drehe und finde auf der Rückseite einen Vokal, dann habe ich die 
Hypothese ebenfalls falsifiziert. Mit beiden Karten lässt sich somit 
die Hypothese testen. Die Hypothese sagt nichts darüber aus, was 
auf der Rückseite von Konsonanten steht. Egal, ob Sie auf der 


Tabelle 44: Möglichkeiten zur Widerlegung beziehungsweise Bestäti- 
gung der Hypothese beim Kartenspiel im Kapitel «Das Orakel von 
Elphi». 


N Bestätigung Widerlegung 


möglich möglich 
A ja ja 
T nein nein 
4 ja nein 
7 nein ja 
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Rückseite von «T» eine gerade oder eine ungerade Zahl finden, mit 
der Hypothese hat sie nichts zu tun. Ähnliches gilt für die Rück- 
seite von «4». Die Hypothese lautet ja nicht, dass auf der Rück- 
seite von geraden Zahlen unbedingt ein Vokal stehen muss. Unter 
den Teilnehmern unserer Vorlesung wählten lediglich sieben von 
siebenundzwanzig die Kombination «A» und «7». Auch dieses 
Beispiel zeigt, dass es uns häufig schwer fällt, Hypothesen zu falsi- 
fizieren. Intuitiv tendieren wir dazu, unsere Annahmen zu bestäti- 
gen. 
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Koch, Robert 173 

Kohlendioxid-Konzentra- 
tion 179f. 

kompositer Endpunkt 73, 
76 

Kontrollgruppe, histori- 
sche 236 f., 266 

Koordinatenachsen 162 f. 

- sinnvoll gewählte 165 
(> Daten, Manipula- 
tion) 

Korrelation 172, 187 (> 


Ursache-Wirkungs-Be- 
ziehung) 

— Beine/Unglücklichsein 
172 

— Bierpreis/Priesterge- 
halt 181 

— Gehalt/Körpergröße 
173 

— Huttragegewohnhei- 
ten/Lungenkrebs 
184 ff. 

— Interpretation von 175 

— Knochendichte/Kno- 
chenbrüche 249f. 

— Schnabellänge/Körper- 
gewicht 182 f. 

— Storchenpaare/Gebur- 
tenrate 181 

— und — Kausalität 187 

- zufällige 173 

Korrelationskoeffizient 
187 

Kraus, Karl 64 

Krebserkrankung 64 (> 
Brustkrebs; Leukämie) 

- Linkshänder 187f., 
214, 219 ff. 

— Zunahme 217 ff. 

Krebsforschung 177 

- Daten, verfälschte 93, 
99. 

— wissenschaftliche Serio- 
sität 70 

Krebsrisiko, altersbeding- 
tes 219 

Krebstherapie 93, 236 (> 
Radioonkologie; Strah- 
lentherapie; Therapie, 
neue) 

Krebsvorsorge 22 


Lady Dis Baseballkappe 
212 

Lancet 144, 252 

Lebenserwartung, geringe 
219, 249f. (> Mortali- 
tätsrate) 

Lessing, Doris 265 

Lessing, Gotthold 
Ephraim 57, 98 

Leukämie 29, 42, 43 

Leukämierate 33, 38 

— erhöhte 33f. 
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Leukämieszenario 31-40 

— Auswertungstabelle 38 

-— Hamburger Telefon- 
buch 38, 40 

— Häufungen, zeitliche 
34, 37. 

— idealisiertes 38 

Literatur, klinische 70 

Literaturarbeitskreise 
265 f. 

Lotto 43, 118, 126, 137 
(> Glücksspiel) 


maghische Zahlen 205, 
208 

Mammakarzinom — 
Brustkrebs 

Mammographie 19, 22 f., 
149. 

Manipulation 85, 87 (> 
Daten) 

— Inflationsrate 171 

- Milchpreise 170 

— Zinsen 171 

Marcuse, Ludwig 45 

Mark Twain 29, 277 

Mastdarmkrebs 25 (> 
Krebserkrankung) 

mathematische Modelle 
202, 211 

- praktische Bedeutung 
211 

Matzbach, Balthasar 164, 
175 

Maxeiner, Dirk 17, 72 

Medianwert 282, 285, 
288 f., 292 (> Mittel- 
wert) 

Medikament, neues 214, 
229, 231 (> For- 
schung, biomedizini- 
sche; Studie, klinische) 

— Standardmedikament; 
Vergleich mit 188, 
229f. 

— Toleranzdosis 284 f. 

— Verschreibungsverhal- 
ten 165 f. 

— Vierfeldertest 53f., 
148 

Meeresspiegel (> Erwär- 
mung, globale) 

— ansteigender 91 ff. 
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— sinkender 92. 
Megatrials 160 
Mehrfachpublikation 107 
Mehrfachtests 64, 71, 78, 
282 
Meinungsforschungsinsti- 
tut 152f. 
Merkel, Angela 140 
Messwerte > Daten 
Metaanalyse 108, 114, 
152 
Metastasen 94, 96, 244 
Miersch, Michael 17, 
72 
minimaler relevanter Un- 
terschied 150f. 
Mittelwert 234, 285 (> 
Medianwert) 
Modeerscheinung 111 
Monte-Carlo-Determina- 
tion 206 
Mortalitätsrate 132f., 
138 f. 
— Verringerung 166 (> 
Überlebensrate) 
Mythos 198 


Namreh-Snah, Nebbud 
202 

NASA 203. 

Nature 252 

Naturkonstanten 202, 
204f., 207 

Nebenwirkungen 249, 
252, 267 

New England Journal of 
Medicine 144, 252 

Nordpol 92 

NSABP-Studie 99 

Nullhypothese 270f. 


Ockham, William von 
211 

Ockhams Rasiermesser 
211 

Onkologie 71 (> Krebs- 
forschung; Radioonko- 
logie) 

Originalarbeit 199 f., 212 


Pannenfreiheit 77 
Parameter 64f., 196 (> 
Studie) 


— Beschränkung auf we- 
nige 211 

— signifikante 67, 69, 282 
(> Signifikanz, statisti- 
sche) 

— übersehene 156 (> 
Übersehwahrschein- 
lichkeit) 

— Veränderung 196 

Patienten 97, 177 (> Stu- 
die, klinische) 

- Anzahl untersuchter 
198, 267, 286 

— dazuerfundene 99 

- mitschlechter Prognose 
177. 

— Mortalitätsrate 138 

— Überlebensrate 69, 77, 
93, 96 

— Verhalten 240 

-— «verschwundene» 266 

Patientengruppe 54, 

239 

— Heilungsrate 69, 140, 
142, 237 

— Optimierung der Pro- 
gnose 237 

- Subgruppe 69, 239 

- Umgruppierung 236f. 
(> Gruppierung, unzu- 
lässige) 

Paulos, John Allen 79 

peer review 71, 110 

Per-Protocol-Analyse 108 

Permutationen 118 ff., 
125 

Placebo 196, 239, 266 

Placeboeffekt 196 

Poisson, Simon-Denis 35 

Poisson-Verteilung 35 f., 
67, 120 

Polkappenschmelze 
91-93 (> Erwärmung, 
globale) 

Popper, Karl 263, 276 

Porzellanstadt 230 ff. 

Prävalenz 21-25 (> 
Wahrscheinlichkeit) 

preliminary reports 97 f., 
251 

- Pferderennen-Vergleich 
98 

Proceedings 251 


Prüfgröße 54, 56, 158, 
282, 292 

publication bias 101, 
103 ff., 107, 109, 111, 
114 ff., 230 

Publikationen > Veröf- 
fentlichungen, wissen- 
schaftliche 

Publikationsflut 192, 265 

publish or perish 81 

p-Wert 142, 288, 293 f. 


Raabe, Wilhelm 265 

Radioonkologie 177, 190 

- internationale Studie 
222 ff. 

Radiotherapy and Onco- 
logy 71 

Randomisierung 147, 
224, 266 

- stratifizierte 231 

Randow, Gero von 79, 
258 

Regenschirm, nicht ganz 
sicherer 57f. 

Regressionsanalysen 187 

Reproduzierbarkeit 81f., 
100, 127. (> Ergeb- 
nisse; Experimente) 

Rinderwahnsinn > BSE; 
Creutzfeldt-Jakob-Syn- 
drom 

Risiko, kumulatives 65 

Röntgenstrahlen 188 

Roth, Eugen 195 


Sachs, Gunther 70 

Sartre, Jean-Paul 144 

Schmoll, Thomas 164 

Schneid-und-Flick-Ver- 
fahren 70 

Schneyder, Werner 152 

Schokolinsenexperiment 
133 f., 135 

— Bypass-Operation 
133 £. 

- Verallgemeinerung 
135 ff. 

Science 252 

Science Citation Index 
252 

Scrapie 39f. (> Creutz- 
feldt-Jakob-Syndrom) 


Sehhilfe 167 f. 

Selbsttäuschung 229 

Signifikanz, statistische 
45 ff., 55, 57, 122, 176, 
206, 263 (— Statistik) 

- Alkoholsünder 62 (> 
Alkoholkontrolle) 

— Fußballspiel, simulier- 
tes 124, 129 

- Gewährleistung 62 

— Interpretation 270 

— Jagd nach 47, 79 

- Kohlendioxidgehalt 
179 

— Medikament, neues 
56 

- Sportergebnisse 127 f. 

- zufällige 56, 65, 67f., 
282 (> Zufall) 

Signifikanzniveau 63, 80, 
153, 266 (> Fünfpro- 
zentniveau) 

— Parameter 65 

Signifikanztest 52 (> Un- 
terschied) 

Simpsons Paradoxon 184, 
229 ff. 

— erster Teil 229 

— leicht übersehbares 
231 

— Raucherstudie 232 f. 

- Studienplatz für Frauen 
232 

— zweiter Teil 231 

Skala, gestreckte 163 f. 

Snow, John 172 

Spinat, Eisengehalt 197 

Sprachverwirrung, baby- 
lonische 188, 191f., 
194 f. (> Stille Post) 

— Muttersprache Eng- 
lisch 189 ff. 

- unterschiedliche Auf- 
fassung 188-190, 195 

St. Pauli (Fußballverein) 
121f. 

— Tabellenrangfolge 129 

— überraschender Sieg 
130f. 

stage migration 236 f. 

Standardmedikament > 
Medikament, neues 

Standardtherapie 56 > 


Therapie, konventio- 
nelle 

Statistik 29, 156, 173 (> 
Signifikanz-...) 

— Anwendung, korrekte 
80 

— Aussagen, nicht halt- 
bare 76 

- Gefühl für 36 

— Missbrauch 70 

— seltener Ereignisse 138 

— Systematik 29 

— Zufall 29 

statistische Bedeutsam- 
keit 43 

statistische Schwankun- 
gen 154, 225 

statistische Unsicherheit 
133 

statistischer Fehler 154 

Statistisches Bundesamt 
70 

Sterberate > Mortalitäts- 
rate 

Sterblichkeitsrisiko239f., 
244 

Stille Post 195 

— Experiment 196 

Strahlenbiologie 91 

Strahlendosis 99, 244 

Strahlentherapie 95, 177, 
184, 212, 251 

— Brustkrebs 155 f. 

- in kürzestmöglicher 
Zeit 177 

— Tumoren 94f., 212, 
282, 

Stratifizierung 266 

Studie 65 

- aussagekräftige 266 

— Blindstudien 247 

— Doppelblindstudien 
247 

- explorative 266 

— kontrollierte 266 

- multizentrische 97, 
231f. 

— Parameter 67f. 

- retrospektive 43 

Studie, klinische 69, 72, 
97, 248 (> Forschung, 
biomedizinische; Pa- 
tienten) 


— Auswertung 242. 

— Ergebnisse 142, 147, 
231 

— Fragestellung 160 

— historische Kontrolle 
237, 266 

— Lipidsenker 238 

— Patienten, Anzahl 140, 
145 ff., 160, 240 f., 266 

— Patientenverteilung 
224-227, 238 

- randomisierte 147, 224 

- sehr große 160 (> Me- 
gatrials) 

- vorläufige Berichte 97 

- Wiederholung 78 

Südpol 92. 

Surrogat-Endpunkt 
248 ff., 255 

Surrogatmarker 251 


Temperaturverlauf 87 

— der letzten 110000 
Jahre 89 

Test (> Experiment) 

- prädikativer 19 

— statistischer 79 

- verdoppelter 69 

— wiederholter 18. 

- zuverlässiger 17, 20 

Testergebnis > Ergebnis 

Texanischer Scharf- 
schütze 41 

Therapie, konventionelle 
96 

— und neue 94f., 142, 
223 

- veraltete 159 

Therapie, neue 96 f., 142 

- anfänglich vorteilhafte 
96 

— Heilungsrate 142 

— Nachbeobachtung 97 

— Nebenwirkungen 142, 
223f. 

Therapien im Vergleich 
144, 156f., 189f., 224 

— schlechter abschnei- 
dende 97, 142, 230 

— Unterschied, signifi- 
kanter 142, 145 

TIA 76 

time lag bias 105 
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TIME-Studie 74. 

Toto 118 

Transitorisch-Ischämische 
Attacke 76 

Treibhauseffekt 180 (> 
Erwärmung, globale) 

Tumor 

— Behandlungsdauer 177, 
184 

- geschrumpfter 244 

— Hals-Kopf-Bereich 
94f., 97 

— lokal nicht geheilter 96 
(> Heilrate) 

- operative Entfernung 
94, 156 

— Strahlentherapie 94 f., 
212,251 

- T-Stadien 64f., 
225-227, 236. 

- Umgruppierung 236. 
(— Gruppierung, unzu- 
lässige) 

Twain, Mark — Mark 
Twain 


Überlebensrate 69, 77,93, 
96 (> Mortalitätsrate) 

— hohe 94 

— Zunahme 244 

Übersehwahrscheinlich- 
keit 141, 145, 156, 158, 
231 

Übertragungsfehler 199 

Überzeugungssystem 258 

Uhlenbruck, Gerhard 214 

Umfragen, repräsentative 
153: 

— statistische Fehler 154 f. 

Umgruppierung 214, 
234-237 (> Gruppie- 
rung, unzulässige) 

Umweltepidemiologie 72 
(> Epidemiologie) 

unausgewogene Bericht- 
erstattung 101, 113 

unfaire Vergleiche 227 

Unterschied 146 

— gesetzmäßiger 52 

— nicht signifikanter 
143 f., 157 ff. 

— signifikanter 130, 142, 
145, 157, 159, 220f. 


— übersehener 145, 158 

— zufälliger 52 (> Zufall) 

Ursache 31 

- mit Wirkung ver- 
tauschte 240, 244 

Ursache-Wirkungs-Bezie- 
hung 172, 175, 178, 
187 (> Kausalität; 
Korrelationen) 

— Brandschaden/Feuer- 
wehrleute 176. 

— Läuse/Fieber 176 

— Ursache zur Wirkung 
erhoben 177, 240, 244 

— Verweilzeiten im Kran- 
kenhaus 177 


Verkehrskontrolle — Al- 
koholkontrolle 

Veröffentlichungen, wis- 
senschaftliche 52, 193, 
265 

— Anzahl als Erfolgskrite- 
rium 83, 194 f., 202, 
250 ff. 

— Arbeitsdauer 253. 

— Ergebnisse als Zufalls- 
produkte 62 

— kleinste publizierbare 
Einheit 251 

- nutzlose 79 

— Resultate, gefälschte 99 
(> Daten, Manipula- 
tion) 

— Zitierungen 253f. 

Versuchsfeld 

— Häufungen, zeitliche 
43 

— Leukämie 31-39 

95 %-Vertrauensbereich 
154, 266, 282, 
284-290, 292 

vibrio cholerae 173 

Vierfeldertest 46, 54 ff., 
129f., 137, 158f., 220, 
270, 282, 291 

- Formel, allgemeine 53, 
158 

 Signifikanz 52 

Vogts, Berti 127 

Vorsorgeuntersuchung 

— Krebsvorsorge 


Wähleranteil 235 

Wahlkampf 152 

Wahlprognose 154. 

Wahrnehmung, selektive 
197, 256, 264 

Wahrscheinlichkeit 18, 
36, 121 f., 131 (> Wür- 
felexperiment; Zufalls- 
wahrscheinlichkeit) 

— Absturzgefahr 64 f. 

— A-priori- 275 

— Autopanne 77f. 

- Erkrankung 18 ff. 

— HIV-Infektion 26f. 

- Kopf/Zahl-Wurf 42 

— Mann als Mensch 268 

- mehrere zugleich 64 

- Multiplikation der Ein- 
zelwahrscheinlichkei- 
ten 136 

— sechs Richtige im Lotto 
43f. 

— statistische 188 

— Tests, medizinische 
18 f., 23 

— Unterschiede, überse- 
hene 158 

Wahrscheinlichkeitsver- 
teilung 121-125 (> 
Poisson-Verteilung) 

Wahrscheinlichkeitswert 
62 

Wanderers Nachtlied 200 

Wason, P. C. 267 

Watzlawick, Paul 256, 
261, 263 

West-Grönland-Glet- 
scher 78f. 


Will-Rogers-Phänomen 
236 

Winkelmann, Goffredo 
203f., 207 

Wirklichkeitsanpassung 
264 

Wirkung > Ursache-Wir- 
kungs-Beziehung 

Wissenschaft (> For- 
schung, b.; Veröffentli- 
chungen, w.) 

— Ergebnispräsentation 
161, 166 (> Ergebnis) 

— Fortschritt in der 276 

— gefährdete 80 

— Glücksspielcharakter 
63 

— heilige Kuh 46f. 

— Selbstkritik, hinderli- 
che 277 

- Übermittlungsfehler 
188 

wissenschaftliche Diskus- 
sion 202, 212 

wissenschaftliche Leis- 
tung 250f. 

wissenschaftliche Produk- 
tivität 252 

Wissenschaftsfälschung 
99 (> Daten, Manipu- 
lation; Krebsfor- 
schung) 

Wittgenstein, Ludwig 188 

Würfel 

— zwanzigseitiger 63 

- gezinkter 81 

Würfelexperimente 65, 
69 


— Brustkrebs 155-159 

- Kreuz oder Kreis 62f. 

— Leukämiesimulation 
31-39 


Zahlenfolge, erwürfelte 
261 ff. 

— Erklärungsmodelle 
262f. 

— Sicherheitsgefühl 262 f. 

Zahnpasta, Wirkung 
167 ff. 

— «klinisch getestete » 
168 

— Kariesfälle/Zahnpasta- 
menge 167 

Zehnkomponentenauto 
TEL. 

Zitierungen 252f. 

Zufall 45 f. (> Signifi- 
kanz, statistische; Wür- 
felexperimente) 

— Ergebnis, zufällig signi- 
fikantes 

— Leukämie 31 

- reiner 263 

- und Ursache 31 

Zufallswahrscheinlich- 
keit 45 f., 55 f., 59, 62, 
67,282 

— signifikante 61, 142 

— nicht signifikante 142 f. 

Zündkerzenkabel 91-93, 
118 ff. 

zusammengesetzter End- 
punkt 72, 74 ff. 
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° Amdahl, Kenn 


Elektronen gibt es hier nicht 
Elektrizität für coole Köpfe 
607271 

Baeyer, Hans Christian von 

Das All, das Nichts und 
Achterbahn 

Physik und Grenzerfahrungen 
60357 8 

Regenbogen, Schneeflocken und 
Quarks 

Physik und die Welt, die wir täglich 
erleben 

19709 X 

Barrow, John D. 

Ein Himmel voller Zahlen 

Auf den Spuren mathematischer 
Wahrheit 

19742 1 

Die Natur der Natur 

Wissen an den Grenzen von Raum 
und Zeit 

19608 5 

Basieux, Pierre 

Abenteuer Mathematik 

Brücken zwischen Wirklichkeit 
und Fiktion 

60178 8 

Die Top Ten der schönsten 
mathematischen Sätze 

60883 9 

Die Welt als Roulette 

Denken in Erwartungen 

19707 3 

Die Architektur der Mathematik 
61119 8 
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Beck-Bornholdt, Hans-Peter, 
Dubben, Hans-Hermann 

Der Schein der Weisen — 
Irrtümer und Fehlurteile im 
täglichen Denken 

61450 2 

Blech, Jörg 

Leben auf dem Menschen 

Die Geschichte unserer Besiedler 
60880 4 

Braun, Karl-Ferdinand 
Geheimnisse der Zahl und Wunder 
der Rechenkunst 

60808 1 

Crick, Francis 

Was die Seele wirklich ist 

Die naturwissenschaftliche Erfor- 
schung des Bewußtseins 
602571 

Dawkins, Marian Stamp 

Die Entdeckung des tierischen 
Bewußtseins 

19743 X 

Dawkins, Richard 

Das egoistische Gen 

19609 3 

Di Trocchio, Federico 

Der große Schwindel 

Betrug und Fälschung in der 
Wissenschaft 

60809 X 

Dörner, Dietrich 

Die Logik des Mißlingens 
Strategisches Denken in 
komplexen Situationen 

19314 0 


Drösser, Christoph 

Stimmt’s? 

Moderne Legenden im Test 
60728 X 

Stimmt’s? Noch mehr moderne 
Legenden im Test 

60933 9 

Dubben, Hans-Hermann, 
Beck-Bornholdt, Hans-Peter 
Mit an Wahrscheinlichkeit 
grenzender Sicherheit — 
Logisches Denken und Zufall. 
61902 4 

Duve, Christian de 

Aus Staub geboren 

Leben als kosmische Zwangs- 
läufigkeit 

60160 5 

Einstein, Albert - Infeld, Leopold 
Die Evolution der Physik 
19921 1 

Genz, Henning 

Die Entdeckung des Nichts 
Leere und Fülle im Universum 
60729 8 

Wie die Zeit in die Welt kam 
Die Entstehung einer Illusion aus 
Ordnung und Chaos 

60731 X 

Gierer, Alfred 

Die gedachte Natur 
Ursprünge der modernen 
Wissenschaft 

60552 X 

Graßmann, Hans 

Das Top Quark, Picasso und 
Mercedes-Benz 

oder Was ist Physik ? 

60806 5 

Haken, Hermann 
Erfolgsgeheimnisse der Natur 
Synergetik: Die Lehre vom 
Zusammenwirken 

19744 8 


Halpern, Paul 

Löcher im All 

Modelle für Reisen durch Zeit und 
Raum 

60356 X 

Hargittai, Istvan - Hargittai, 
Magdolna 

Symmetrie 

Eine neue Art, die Welt zu sehen 
60358 6 

Hawking, Stephen - Penrose, 
Roger 

Raum und Zeit 

60885 5 

Hawking, Stephen 

Einsteins Traum 

Expeditionen an die Grenzen der 
Raumzeit 

60132 X 

Eine kurze Geschichte der Zeit 
60555 4 

Stephen Hawkings Welt 

Ein Wissenschaftler und sein Werk 
19661 1 

Jaynes, Julian 

Der Ursprung des Bewußtseins 
195291 

Kaku, Michio 

Im Hyperraum 

Eine Reise durch Zeittunnel und 
Paralleluniversen 

60360 8 

Kippenhahn, Rudolf 
Verschlüsselte Botschaften 
Geheimschrift, Enigma und 
Chipkarte 

60807 3 

Kröber, Karl Günter 

Das Märchen vom Apfelmännchen 
Band 1: Wege in die Unendlichkeit 
60881 2 

Das Märchen vom Apfelmännchen 
Band 2: Reise durch das malumiti- 


sche Universum 
60882 0 
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Linke, Detlef B. 
Hirnverpflanzung 

Die erste Unsterblichkeit auf Erden 
60135 4 

Lurija, Alexander R. 

Das Gehirn in Aktion 

Einführung in die Neuro- 
psychologie 

19322 1 

Merö, Läszlo 

Die Logik der Unvernunft 
Spieltheorie und die Psychologie 
des Handelns 

60821 9 

Monka, Michael - Tiede, Manfred 
- Voß, Werner 

Gewinnen mit Wahrscheinlichkeit 
Statistik für Glücksritter 

607301 

Neubauer, Dieter 

Demokrit läßt grüßen: Eine andere 
Einführung in die Anorganische 
Chemie 

60550 3 

Norretranders, Tor 

Spüre die Welt 

Die Wissenschaft des Bewußtseins 
60251 2 

Peitgen, Heinz-Otto - Jürgens, 
Hartmut - Saupe, Dietmar 
Bausteine des Chaos 

Fraktale 

60250 4 

Chaos 

Bausteine der Ordnung 

605511 

Pössel, Markus 

Phantastische Wissenschaft 

Über Erich von Däniken und 
Johannes von Buttlar 

60259 8 

Poundstone, William 

Im Labyrinth des Denkens 

Wenn Logik nicht weiterkommt: 
Paradoxien, Zwickmühlen und 
die Hinfälligkeit unseres 

Denkens 

19745 6 


Randow, Gero von (Hg.) 

Der Fremdling im Glas und weitere 
Anlässe zur Skepsis, entdeckt im 
«Skeptical Inquirer » 

19665 4 

Mein paranormales Fahrrad 

und andere Anlässe zur Skepsis, 
entdeckt im «Skeptical Inquirer » 
19535 6 

Randow, Gero von 

Roboter 

Unsere nächsten Verwandten 
60553 8 

Das Ziegenproblem 

Denken in Wahrscheinlichkeiten 
19337 X 

Schnabel, Ulrich - Sentker, Andreas 
Wie kommt die Welt in den Kopf? 
Reise durch die Werkstätten der 
Bewußtseinsforscher 

60256 3 

Sossinsky, Alexei 

Mathematik der Knoten 

Wie eine Theorie entsteht 

60930 4 

Trefil, James 

Physik in der Berghütte 

Von Gipfeln, Gletschern und 
Gestein 

19382 5 

Tudge, Colin 

Letzte Zuflucht Zoo 

Die Erhaltung bedrohter Arten in 
Zoologischen Gärten 

60361 6 

Turkle, Sherry 

Leben im Netz 

Identität in Zeiten des Internet 
60069 2 

Watson, James D. 

Die Doppelhelix 

Ein persönlicher Bericht über die 
Entdeckung der DNS-Struktur 
60255 5 

White, Michael - Gribbin, John 
Stephen Hawking: Die Biographie 
19992 0 
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